ES2461191T3 - Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio - Google Patents

Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio Download PDF

Info

Publication number
ES2461191T3
ES2461191T3 ES12168768.5T ES12168768T ES2461191T3 ES 2461191 T3 ES2461191 T3 ES 2461191T3 ES 12168768 T ES12168768 T ES 12168768T ES 2461191 T3 ES2461191 T3 ES 2461191T3
Authority
ES
Spain
Prior art keywords
signal
representation
audio signal
ambient
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12168768.5T
Other languages
English (en)
Inventor
Christian Uhle
Jürgen HERRE
Andreas Walther
Oliver Hellmuth
Christiaan Janssen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2461191T3 publication Critical patent/ES2461191T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

Aparato (500) para obtener una señal de audio multi-canal que comprende una señal de altavoz frontal (562, 564, 566) y una señal de altavoz posterior (542, 544) a partir de una señal de audio (108; 208; 308; 508), que comprende: un aparato (100; 200; 300; 510) para generar una señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) a partir de la señal de audio (108; 208; 308; 508), en el que el aparato (100; 200; 300; 510) para generar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) a partir de la señal de audio (108; 208; 308; 508) comprende: medios (110; 220; 320) para una compresión con pérdidas de una primera representación (108; 212; 316; X(ω,k)) de la señal de audio con el fin de obtener una representación comprimida (112; 222; 322; X ) (ω,k)) de la señal de audio; y medios (120; 230; 330) para calcular una diferencia entre la representación comprimida (112; 222; 322; X ) (ω,k)) de la señal de audio y la primera representación (108; 212; 316; X(ω,k)) de la señal de audio con el fin de obtener una representación de discriminación (122; 232; 332, 336; Ι A (w,k)Ι ), describiendo la representación de discriminación la diferencia entre la primera representación de la señal de audio y la representación comprimida de la señal de audio, y describiendo la representación de discriminación las porciones de la señal de audio no incorporadas en la representación comprimida con pérdidas o eliminadas en la representación comprimida con pérdidas, y en el que los medios para la compresión con pérdidas se configuran de tal forma que se prefiere que las porciones de señal que muestran una distribución regular de la energía o que llevan una gran energía de señal se incluyan en la representación comprimida, mientras que las porciones de señal que tienen una energía distribuida de forma irregular o una energía inferior se transfieren a la representación comprimida de forma atenuada o sólo en escasa medida; en el que la representación de discriminación forma la señal de ambiente; un aparato (550, 560) para proporcionar la señal de audio (108; 208; 308; 508) o una señal obtenida a partir del mismo como la señal de altavoz frontal (562, 564, 566); y un aparato que proporciona la señal del altavoz posterior (520, 530, 540) para proporcionar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) proporcionada por el aparato (510) para generar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) o una señal obtenida a partir del mismo como la señal de altavoz posterior (542, 544).

Description

Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio
5 [0001] La presente invención se refiere en general a un aparato y a un procedimiento para generar una señal de ambiente a partir de una señal de audio, a un aparato y un procedimiento para obtener una señal de audio multicanal a partir de una señal de audio, y a un programa de ordenador. Concretamente, la presente invención se refiere a un procedimiento y concepto para calcular una señal de ambiente a partir de una señal de audio para mezclar
10 señales mono de audio para reproducción en sistemas multi-canal.
[0002] A continuación, se analizará la motivación subyacente a la presente invención. En la actualidad, el material de audio multi-canal también está experimentando una creciente popularidad en entornos domésticos. La razón principal de esto es que las películas en medios de DVD ofrecen a menudo sonido multi-canal 5.1. Por esta razón,
15 incluso los usuarios domésticos instalan frecuentemente sistemas de reproducción de audio capaces de reproducir señales de audio multi-canal.
[0003] Una configuración correspondiente puede consistir, por ejemplo, en tres altavoces (a modo de ejemplo designados con L, C y R) dispuestos en la parte delantera, dos altavoces (designados con LS y RS) dispuestos
20 detrás o hacia atrás de un oyente y un canal de efectos de baja frecuencia (también denominado como LFE). Los tres altavoces dispuestos en la parte delantera (L, C, R) se denominarán también en lo sucesivo como altavoces frontales. Los altavoces dispuestos detrás y en la parte posterior del oyente (LS, RS) se denominan también en lo sucesivo altavoces posteriores.
25 [0004] Además, cabe señalar que, por razones de conveniencia, los siguientes detalles y explicaciones se refieren a los sistemas 5.1. Los siguientes detalles pueden, por su puesto, aplicarse también a otros sistemas de canales múltiples, con sólo realizar pequeñas modificaciones.
[0005] Los sistemas de canales múltiples (tal como un sistema de audio multi-canal 5.1) proporcionan varias
30 ventajas ya conocidas sobre la reproducción estéreo de dos canales. Esto se ejemplifica mediante las siguientes ventajas:
-
Ventaja 1: estabilidad mejorada frente a la imagen, incluso de o fuera de la posición de escucha óptima (central). El
"punto dulce" se amplía mediante el canal central. El término "punto dulce" se refiere a un área de posiciones de 35 escucha donde se puede percibir una impresión de sonido óptima (por un oyente).
-
Ventaja 2: Establecer una mejor aproximación de una impresión o experiencia a una sala de conciertos. Se obtiene una mayor experiencia de la "envoltura" y amplitud se obtiene a través de los altavoces de canal posteriores o los altavoces de canal posteriores.
40 [0006] Sin embargo, todavía hay una gran cantidad de contenidos de audio legados que consta de sólo dos ("estéreo") canales de audio, tal como en los discos compactos. Incluso se venden grabaciones muy viejas y antiguas películas y series de televisión en CD y/o DVD que están disponibles en calidad mono y/o por medio de solamente una señal de audio "mono" de un único canal.
45 [0007] Por lo tanto, hay opciones para la reproducción de material legado de audio mono a través de una configuración multicanal 5.1:
-
Opción 1: Reproducción o playback del canal mono a través del centro o a través del altavoz central para obtener
una fuente mono verdadera. 50
-
Opción 2: Reproducción o playback de la señal mono por los altavoces L y R (es decir, por el altavoz delantero izquierdo y el altavoz delantero derecho).
Este enfoque produce una fuente mono fantasma que tiene una anchura de fuente percibida más amplia que una
55 fuente de mono verdadera, pero con una tendencia hacia el altavoz más cercano al oyente cuando el oyente no se sienta dentro o en el punto dulce.
Este procedimiento también puede ser usado si sólo hay disponible un sistema de reproducción de dos canales, y que no hace uso de la configuración de altavoces ampliada (tales como un a configuración de altavoz con 5 ó 6 altavoces). El altavoz C o altavoz central, el altavoz LS, o altavoz trasero izquierdo, el altavoz RS, o altavoz trasero derecho y el altavoz LFE, o altavoz de canal de efectos de baja frecuencia, permanecen sin utilizar.
-
Opción 3: Puede emplearse un procedimiento para convertir el canal de la señal mono en una señal multicanal
5 utilizando todos los altavoces 5.1 (es decir, los seis altavoces usados en un sistema de canales múltiples 5.1). De esta manera, la señal multi-canal se beneficia de las ventajas que se han analizado previamente de la configuración de varios canales. El procedimiento se puede emplear en tiempo real o "sobre la marcha" o por medio de preprocesamiento y se conoce como proceso de mezcla o "mezcla".
10 [0008] En lo que respecta a la calidad del audio o la calidad del sonido, la opción 3 ofrece ventajas sobre la opción 1 y la opción 2. Sin embargo, particularmente con respecto a la señal generada para la alimentación de los altavoces posteriores, el procesamiento de la señal requerida no es obvio.
[0009] En la bibliografía, se describen dos conceptos diferentes para un procedimiento de mezcla o proceso de
15 mezcla. Estos conceptos son el "Concepto Directo/Ambiente" y el "Concepto en la banda". A continuación, se describirán los dos conceptos indicados.
Concepto Directo/Ambiente
20 [0010] Las "fuentes de sonido directo" se reproducen a través de los tres canales frontales de forma que se perciben en la misma posición que en la versión original de dos canales. La expresión "fuente de sonido directo" se usa aquí para describir el sonido que viene, única y directamente de una fuente de sonido discreto (por ejemplo, un instrumento), y que muestra poco o ningún sonido adicional, por ejemplo, debido a reflejos de las paredes.
25 [0011] En este escenario, el sonido o el ruido alimentado a los altavoces posteriores debe consistir únicamente en ruido o sonido similar al ambiente (que puede o no estar presente en la grabación original). El sonido o ruido similar al ambiente no está asociado a una única fuente de sonido o fuente de ruido, pero contribuye a la reproducción o playback del entorno acústico (acústica de la sala) de una grabación o a la denominada "sensación de envolvente" del oyente. El sonido similar al ambiente o ruido similar al ambiente es ruido o sonido adicional por parte del público
30 en las actuaciones en directo (tal como aplausos) o el sonido ambiental o ruido ambiental añadido con intención artística (tal como el ruido de la grabación, canto de los pájaros, los sonidos de grillos chirriando).
[0012] A modo de ilustración, la figura 7 representa la versión original de dos canales (de una grabación de audio). La figura 8 muestra una entrega mezclada usando el concepto Directo/Ambiente.
35 Concepto en la banda
[0013] Siguiendo el concepto circundante, a menudo denominado como "concepto en la banda", cada sonido o ruido (sonido directo, así como el ruido ambiental) puede posicionarse completa y/o arbitrariamente alrededor del
40 oyente. La posición del ruido o sonido es independiente de sus propiedades (sonido directo o ruido directo o sonido ambiental o ruido ambiental) y depende solamente del diseño específico del algoritmo y sus ajustes de parámetros.
[0014] La figura 9 representa el concepto envolvente.
45 [0015] En resumen, las figuras 7, 8 y 9 muestran varios conceptos de playback. Aquí, las figuras 7, 8 y 9 describen donde el oyente percibe el origen del sonido (como un área de traza oscura). La figura 7 describe la percepción acústica durante la reproducción de música. La figura 8 describe la percepción acústica y/o localización del sonido usando el concepto Directo/Ambiente. La figura 9 describe la percepción de sonido y/o la localización del sonido usando el concepto envolvente.
50 [0016] La siguiente sección proporciona una visión general sobre la técnica anterior con respecto a la mezcla de una señal de un canal o de dos canales para formar una versión de múltiples canales. La bibliografía indica varios procedimientos para mezclar señales de un único canal y señales de múltiples canales.
55 Procedimientos no señal adaptivos
[0017] La mayoría de procedimientos para la generación de una señal denominada "pseudo estereofónica" no son señal adaptivos. Esto significa que procesan cualquier señal mono de la misma manera, independientemente del contenido de la señal. Estos sistemas funcionan a menudo con estructuras de filtro simples y/o retrasos de tiempo a fin de descorrelacionar las señales generadas. Puede encontrarse un análisis general de dicho sistema, por ejemplo, en [1].
Procedimientos Señal adaptativos
5 [0018] Los decodificadores de matriz (tal como el descodificador Dolby Pro Logic II, descrito en [2], el descodificador DTS NEO:6, descrito, por ejemplo, en [3], o el descodificador Harman Kardon/Lexicon Logic 7, descrito, por ejemplo, en [4]) se encuentran en casi todos los receptores de audio/vídeo que se venden actualmente. Como un subproducto de su función real o prevista, estos decodificadores de matriz son capaces de realizar una
10 mezcla ciega.
[0019] Los decodificadores mencionados usan las diferencias entre canales y los mecanismos señaladaptivos de dirección a fin de crear señales de salida multicanal.
15 Extracción de ambiente y síntesis de señales estéreo para la mezcla de audio multi-canal
[0020] Avendano y Jot proponen una técnica del dominio de la frecuencia con el fin de identificar y extraer la información de ambiente en señales de audio estéreo (véase [5]).
20 [0021] El procedimiento se basa en calcular un índice de coherencia inter-canal y una función de mapeo no lineal que consiste en permitir la determinación de regiones de tiempo-frecuencia principalmente a base de componentes de ambiente o porciones de ambiente en la señal de dos canales. A continuación, se sintetizan las señales de ambiente y se usan para alimentar los canales de sonido envolvente de un sistema de reproducción multi-canal.
25 Un procedimiento para convertir sonido estéreo en sonido multicanal
[0022] Irwan y Aarts muestran un procedimiento para convertir una señal de una representación estéreo en una representación de múltiples canales (véase [6]). La señal para los canales envolventes se calcula usando una técnica de correlación cruzada. Se usa un análisis de componentes principales (PCA) para calcular un vector que
30 indica la dirección de la señal dominante. Entonces, este vector se mapea a partir de una representación de dos canales con respecto a una representación de tres canales con el fin de generar los tres canales frontales.
Mezclado basado en ambiente
35 [0023] Soulodre muestra un sistema que genera una señal de múltiples canales a partir de una señal estéreo (véase [7]). La señal se descompone en los llamados "flujos de fuente individuales" y "flujos de ambiente". En base a estos flujos, un denominado "motor estético" sintetiza la salida multicanal. Sin embargo, no se dan más detalles técnicos relativos a la etapa de descomposición y la etapa de síntesis.
40 Pseudostereofonía basada en claves espaciales
[0024] Se describe un proceso cuasi-señaladaptivo pseudo-estereofónico por Faller en [1]. Este procedimiento usa una señal mono y grabaciones estéreo de la misma señal. Se extrae información adicional espacial o señales espaciales de la señal estéreo y se usan para convertir la señal mono en una señal estéreo.
45 [0025] Es el objeto de la presente invención proporcionar un concepto para generar una señal de ambiente a partir de una señal de audio, así como un concepto para obtener una señal de audio multi-canal a partir de una señal de audio, permitiendo los conceptos la generación de una señal de ambiente a partir de una señal de un canal sin ninguna información previa sobre la señal de un canal, de manera que la señal de ambiente transmita una impresión
50 auditiva particularmente buena.
[0026] Este objeto se consigue mediante un aparato para obtener una señal de ambiente a partir de una señal de audio de acuerdo con la reivindicación 1 ó 2, un procedimiento para obtener una señal de audio multi-canal a partir de una señal de audio según la reivindicación 3 ó 4, así como un programa de ordenador según la reivindicación 5.
55 [0027] Es una idea esencial de la presente invención que una señal de ambiente pueda ser generada a partir de una señal de audio de una manera particularmente eficiente mediante la determinación de una diferencia entre una representación comprimida de la señal de audio, que se generó por la compresión con pérdidas de una representación original de la señal de audio, y la representación original de la señal de audio. Es decir, se ha demostrado que en el uso de la compresión con pérdidas, la diferencia entre la señal de audio original y la señal de audio comprimida con pérdidas obtenida a partir de la señal de audio original por la compresión con pérdidas describe sustancialmente señales de ambiente, es decir, por ejemplo, similares al ruido o señales similares al ambiente o no-localizables.
5 [0028] En otras palabras, cuando se realiza una compresión con pérdidas, la representación comprimida de la señal de audio comprende sustancialmente los eventos de sonido localizables o eventos de sonido directo. Esto se basa en el hecho de que los eventos de sonido localizables suelen disponer en particular de alta energía específica y también formas de onda específicamente características. Por lo tanto, se prefiere procesar las señales localizables
10 por la compresión con pérdidas a fin de que la representación comprimida comprenda sustancialmente las señales localizables de alta energía o una forma de onda característica.
[0029] Sin embargo, en la compresión con pérdidas, las señales ambientales no localizables que suelen no presentar cualquier forma de onda característica específicamente están representadas en menor medida por la 15 representación comprimida de las señales localizables. Así, se ha reconocido que la diferencia entre la representación de la señal de audio en la forma de compresión con pérdidas y la representación original de la señal de audio describe sustancialmente la porción no localizable de la señal de audio. Además, se ha reconocido que el uso de la diferencia entre la representación en forma de compresión con pérdidas de la señal de audio y la representación original de la señal de audio como señal de ambiente resulta en una impresión auditiva
20 particularmente buena.
[0030] En otras palabras, se ha reconocido que la compresión con pérdidas de una señal de audio típicamente no incorpora, o sólo en un grado muy pequeño, la porción de señal de ambiente de la señal de audio y que, por lo tanto, en particular la diferencia entre la representación original de la señal de audio y la representación en forma de
25 compresión con pérdidas de la señal de audio se aproxima bien a la porción de señal de ambiente de la señal de audio. Por lo tanto, el concepto de la invención como se define en la reivindicación 1 es adecuado para la extracción ciega de la porción de señal de ambiente de una señal de audio.
[0031] El concepto de la invención es particularmente ventajoso en que incluso se puede extraer una señal de
30 ambiente de una señal de un canal sin la existencia de ninguna información auxiliar adicional. Además, el concepto de la invención consiste en etapas algorítmicamente sencillas, es decir, realizar una compresión con pérdidas, así como el cálculo de una diferencia entre la representación de la señal de audio en la forma de compresión con pérdidas y la representación original de la señal de audio. Además, el procedimiento de la invención es ventajoso en que no se introducen efectos de audio sintéticos en la señal de ambiente. Por lo tanto, la señal de ambiente puede
35 estar libre de reverberación, ya que puede producirse en el contexto de los procedimientos convencionales para la generación de una señal de ambiente. Además, cabe señalar que la señal de ambiente generada en la forma de la invención típicamente deja de tener porciones de alta energía que pueden interferir con la impresión auditiva como en el contexto de la compresión con pérdidas, dichas porciones de alta energía están contenidas en la representación de la señal de audio en la forma de compresión con pérdidas y, por lo tanto, no se producen, o sólo
40 muy ligeramente, en la diferencia entre la representación en forma de compresión con pérdidas y la representación original de la señal de audio.
[0032] En otras palabras, según la invención, la señal de ambiente contiene exactamente aquellas partes que se consideran indispensables para la representación del contenido de información en el contexto de la compresión con
45 pérdida. Es exactamente esta información, sin embargo, la que representa el ruido de fondo.
[0033] Por lo tanto, el concepto de la invención permite la separación constante de información localizable y el ruido de fondo usando la compresión con pérdidas, en el que el ruido de fondo, que es el que se suprime y/o elimina por compresión con pérdidas, sirve como señal de ambiente.
50 [0034] Además, la presente invención proporciona procedimientos que corresponden a los aparatos de la invención en lo que se refiere a su funcionalidad.
[0035] La presente invención proporciona adicionalmente un programa de ordenador para la realización de los 55 procedimientos de la invención.
[0036] Las realizaciones preferidas particularmente ventajosas de la presente invención se definen de otro modo por las reivindicaciones adjuntas.
[0037] A continuación, las realizaciones preferidas de la presente invención se analizan con respecto a los dibujos adjuntos, en los que:
La figura 1 es un diagrama de bloques de un aparato para generar una señal de ambiente a partir de una señal de 5 audio;
la figura 2 es un diagrama de bloques de un aparato para generar una señal de ambiente a partir de una señal de audio;
10 la figura 3 es un diagrama de bloques detallado de un aparato de la invención para generar una señal de ambiente a partir de una señal de audio;
la figura 4a es una representación ejemplar de una representación aproximada de una matriz por un producto de dos matrices; 15 la figura 4b es una representación esquemática de una matriz x;
la figura 5 es un diagrama de bloques de un aparato para obtener una señal de audio multi-canal a partir de una señal de audio;
20 la figura 6 es un diagrama de flujo de un procedimiento de la invención para la creación de una señal de ambiente a partir de una señal de audio;
la figura 7 es una representación esquemática de una impresión auditiva en un concepto de reproducción estéreo; 25 la figura 8 es una representación esquemática de una impresión auditiva en un concepto directo/ambiente; y
la figura 9 es una representación esquemática de una impresión auditiva en un concepto envolvente.
30 [0038] La figura 1 muestra un diagrama de bloques de un aparato de la invención para generar una señal de ambiente a partir de una señal de audio.
[0039] El aparato de acuerdo con la figura 1 se designa en su totalidad con 100. El aparato 100 está configurado para recibir una señal de audio en una representación que, básicamente, se puede seleccionar arbitrariamente. En
35 otras palabras, el aparato 100 recibe una representación de una señal de audio. El aparato 100 comprende medios 110 para la compresión con pérdidas de la señal de audio o la representación de la señal de audio. El medio 110 se configura para recibir la representación 108 de la señal de audio. Los medios 110 generan a partir de la representación (original) 108 de la señal de audio una representación en forma de compresión con pérdidas 112 de la señal de audio.
40 [0040] El aparato 100 comprende adicionalmente medios 120 para calcular una diferencia entre la representación 112 de la señal de audio en la forma de compresión con pérdidas de la señal de audio y la representación (original)
108. Por lo tanto, los medios 120 están configurados para recibir la representación en la forma de compresión con pérdidas 112 de la señal de audio, así como, además, la representación (original) 108 de la señal de audio. En base
45 a la representación (original) 108 de la señal de audio y la representación de la forma de compresión con pérdidas 112 de la señal de audio, los medios 120 calculan una representación de discriminación 122 que describe una diferencia entre la representación (original) 108 de la señal de audio y la representación en la forma de compresión con pérdidas 112 de la señal de audio.
50 [0041] El aparato 100 comprende adicionalmente medios 130 para proporcionar la señal de ambiente 132 usando y/o en base a y/o en función de la representación de discriminación 122.
[0042] En base a la descripción estructural anterior del aparato 100, a continuación se describe brevemente el funcionamiento del aparato 100. El aparato 100 recibe una representación 108 de una señal de audio. Los medios 55 110 generan una representación en la forma de compresión con pérdidas 112 de la señal de audio. Los medios 120 calculan una representación de discriminación 122 que describe una diferencia entre la representación 108 de la señal de audio y la representación en la forma de compresión con pérdidas 112 de la señal de audio y/o que es una función de la diferencia mencionada. En otras palabras, la representación de discriminación 122 describe aquellas partes de señal de la señal de audio (original) descritas por la representación 108, que se quitan y/o que no se reproducen en la representación de la forma de compresión con pérdidas 112 de la señal de audio por los medios 110 para la compresión con pérdida. Como, típicamente, por los medios 110, exactamente aquellas partes de la señal que exhiben una curva irregular se eliminan y/o no reproducen en la representación en la forma de compresión con pérdidas 112 de la señal de audio, la representación de discriminación 122 describe exactamente aquellas 5 porciones de señal que tienen un a curva irregular o una distribución de energía irregular, es decir, por ejemplo, similar al partes de señal de ruido. Como, normalmente, las porciones directas y/o "partes de señal localizables", que son de particular importancia para el oyente, son reproducidas por los altavoces frontales (y no por los altavoces "posteriores"), la representación de discriminación 122 está, con respecto a esta materia, adaptada a los requisitos de la reproducción de audio. Por lo tanto, las porciones directas y/o porciones localizables de la señal de audio 10 original están contenidas en la representación en la forma de compresión con pérdidas 112 de la señal de audio de una manera sustancialmente no corrompida y, por lo tanto, sustancialmente suprimida en la representación discriminación 122 como se desea. Por otra parte, en la representación de la forma de compresión con pérdidas 112 de la señal de audio, se reducen las porciones de información que tienen energía distribuida irregularmente y/o poca localizabilidad. La razón es que en la compresión con pérdidas, como se realiza por los medios 110 para la 15 compresión con pérdidas, la información de energía distribuida regularmente y/o que tiene alta energía se transfiere a la representación en la forma de compresión con pérdidas 112 de la señal de audio, mientras que las porciones de la señal (original) de audio que tienen energía de distribución irregular y/o una energía más baja se transfieren a la representación en la forma de compresión con pérdidas 112 de la señal de audio en una forma atenuada o solamente muy poco. Como resultado, por medio de la atenuación de las porciones de señal que tienen una 20 distribución de energía irregular y/o de las partes de señal de baja energía de la señal de audio que se produce en el contexto de la compresión con pérdidas, la representación discriminación 112 todavía comprende una gran porción comparable de las partes de señal de baja energía y/o porciones de señal que tienen la energía de distribución irregular. Exactamente estas partes de señal no muy ricas en porciones de energía y/o señal con energía distribuida irregularmente, como se describen por la representación de discriminación 122, representan la información que da
25 como resultado una impresión auditiva particularmente buena y agradable en la reproducción (por medio de los altavoces posteriores).
[0043] Para resumir, se puede afirmar que en la representación de discriminación 122, las porciones de señal que tienen la energía distribuida regularmente (es decir, por ejemplo, señales localizables) se suprimen o se atenúan. En
30 contraste con esto, en la representación de discriminación 122, las porciones de señal que tienen la energía de distribución irregular (tal como señales no localizables) no se suprimen ni se atenúan. Por lo tanto, en la representación de la discriminación, las porciones de señal que tienen distribución irregular de energía se destacan
o acentúan en comparación con las porciones de señal que tienen energía distribuida regularmente. Por lo tanto, la representación de la discriminación es particularmente adecuada como señal de ambiente.
35 [0044] En otras palabras, todo lo que aparece repetidamente en la representación tiempo-frecuencia está bien aproximado por la compresión con pérdida.
[0045] La distribución de energía regular está aquí destinada a ser, por ejemplo, la distribución de energía que
40 presenta un patrón recurrente en una representación tiempo-frecuencia o que proporciona una concentración local de energía en la representación tiempo-frecuencia. Por ejemplo, la distribución de energía irregular es distribución de energía que no produce ningún patrón recurrente ni una concentración local de energía en una representación tiempo-frecuencia.
45 [0046] Dicho de otro modo, la señal de ambiente comprende sustancialmente porciones de señal que tienen una distribución de energía no estructurada (por ejemplo no estructurada en la distribución tiempo-frecuencia), mientras que la representación en la forma de compresión con pérdidas de la señal de audio comprende sustancialmente partes de señal que tienen una distribución de energía estructurada (por ejemplo, estructurada en la representación tiempo-frecuencia como se ha descrito anteriormente).
50 [0047] Por lo tanto, los medios 130 para proporcionar la señal de ambiente en base a la representación de discriminación 122 proporcionan una señal de ambiente que está particularmente bien adaptada a las expectativas de un oyente humano.
55 [0048] Los medios 110 para la compresión con pérdidas pueden ser también, por ejemplo, un compresor de audio MP3, un compresor de audio MP4, un compresor de audio ELP o un compresor de audio SPR.
[0049] La figura 2 muestra un diagrama de bloques de un aparato para generar una señal de ambiente a partir de una señal de audio. Además, la figura 3 muestra un diagrama de bloques detallado de un aparato para generar una señal de ambiente a partir de una señal de audio. En su totalidad, el aparato de acuerdo con la figura 2 se designa con 200, y, en su totalidad, el aparato de acuerdo con la figura 3 se designa con 300.
[0050] El aparato 200 está configurado para recibir una señal de entrada presente, por ejemplo, en forma de una 5 representación en el tiempo x[n]. La señal de entrada 208 describe típicamente una señal de audio.
[0051] Los medios 200 comprenden un proveedor de distribución de tiempo-frecuencia 210. El proveedor de distribución de tiempo-frecuencia 210 está configurado para generar una distribución tiempo-frecuencia (TFD) de la señal de entrada 208 presente en una representación del tiempo x[n]. Ha de apreciarse que el proveedor de
10 distribución de tiempo-frecuencia 210 es opcional. Es decir, una representación 212 de una representación tiempofrecuencia también puede servir como señal de entrada del aparato 200 de modo que en este caso la conversión de la señal de entrada 208 (x[n]), que está presente como una señal de tiempo, en la representación 212 de la distribución tiempo-frecuencia puede omitirse.
15 [0052] Se ha de señalar además que la representación 212 de la distribución tiempo-frecuencia puede, por ejemplo, estar presente en forma de una matriz de distribución tiempo-frecuencia. Además, se ha de señalar que, por ejemplo, la matriz X(ω,k), que se explicará con mayor detalle a continuación, o bien la matriz ⏐X(ω,k)⏐ puede servir como la representación 212 de la distribución tiempo-frecuencia.
20 [0053] Los medios 200 comprenden adicionalmente medios de aproximación 220, configurados para recibir la representación 212 de la distribución tiempo-frecuencia, y para generar una representación aproximada 222 de la representación tiempo-frecuencia 212 que es típicamente comprimida con pérdidas en comparación con la representación 212. En otras palabras, la aproximación o la representación aproximada 222 de la distribución tiempo-frecuencia 212 se realiza mediante los medios de aproximación 220, por ejemplo usando un procedimiento
25 de optimización numérica, como se describirá con más detalle a continuación. Se asume, sin embargo, que la aproximación produce una desviación entre la representación (original) 212 de la distribución tiempo-frecuencia (que es una representación original de la señal de audio) y la representación aproximada 222 de la distribución tiempofrecuencia. La diferencia entre la representación original 212 y la representación aproximada 222 de la distribución tiempo-frecuencia se basa en el hecho de que los medios 220 de aproximación están configurados para realizar una
30 aproximación con pérdidas, en la que se prefiere pasar partes de la señal que presentan una distribución regular de la energía y/o llevan una gran energía de la señal a la representación aproximada, mientras que las porciones de señal que muestran energía distribuida irregularmente comparable y/o energía de señal comparativamente menor se atenúan o neutralizan en la representación aproximada 222 en comparación con las porciones de señal que tienen la energía regularmente distribuida y/o una señal de energía grande.
35 [0054] El aparato 200 comprende además un determinador de diferencia 230 configurado para recibir la representación original 212 de la distribución tiempo-frecuencia, así como la representación aproximada 222 de la representación tiempo-frecuencia para generar, en base a una diferencia entre la representación original 212 y la representación aproximada 222, una representación de discriminación 232 que esencialmente describe la diferencia
40 entre la representación original 212 y la representación aproximada 222 y/o que es una función de la diferencia entre la representación original 212 y la representación aproximada 222. Los detalles sobre el cálculo de la representación de discriminación 232 se explicarán a continuación.
[0055] El aparato 200 comprende además medios de re-síntesis 240. Los medios de re-síntesis 240 están
45 configurados para recibir la representación de discriminación 232 a fin de generar una nueva señal sintetizada 242 en base a la misma. Los medios de re-síntesis 240 pueden, por ejemplo, configurarse para convertir la representación de discriminación 232, que está presente en la forma de una distribución tiempo-frecuencia, en una señal temporal 242.
50 [0056] Se ha de señalar además que los medios de re-síntesis 240 son opcionales y pueden omitirse si hay reprocesamiento directo de la representación de discriminación 232, que puede, por ejemplo, estar presente en forma de una distribución tiempo-frecuencia, si se desea.
[0057] Los medios 200 comprenden adicionalmente medios 250 opcionales para el montaje de una señal de audio
55 de múltiples canales y/o para el posprocesamiento. Los medios 250 están, por ejemplo, configurados para recibir la señal re-sintetizada 242 desde los medios 240 para la re-síntesis y para generar una pluralidad de señales de ambiente 252, 254 (también indicadas con a1[n], …, ak[n]) de la señal re-sintetizada 242.
[0058] La generación de la pluralidad de las señales ambientales 252, 254 se explicara con mayor detalle a
continuación.
[0059] En resumen, se muestra que la presente invención se refiere sustancialmente al cálculo de una señal de ambiente. El diagrama de bloques de la figura 2 ha servido para proporcionar una breve descripción del concepto en 5 el que se basa la presente invención. Este concepto de la invención se puede resumir en breve como se indica a continuación:
[0060] Una distribución tiempo-frecuencia 212 (TFD) de la señal de entrada 208 (x[n]) se calcula (opcionalmente) en unos medios (opcionales) 210 para la determinación de la distribución tiempo-frecuencia. El cálculo se explicará 10 con mayor detalle a continuación. Una aproximación 220 de la distribución tiempo-frecuencia 212 (TFD) de la señal de entrada 208 (x[n]) se calcula, por ejemplo, utilizando un procedimiento de aproximación numérica que se describirá con mayor detalle a continuación. Este cálculo puede realizarse, por ejemplo, en los medios 220 para la aproximación. Mediante el cálculo de una distinción o diferencia entre la distribución tiempo-frecuencia 212 (TFD) de la señal de entrada 208 (x[n]) y su aproximación 212 (por ejemplo, en los medios 230 para el cálculo de una 15 diferencia), se obtiene una estimación 232 de una distribución de tiempo-frecuencias (TFD) de la señal de ambiente. Después de esto, se realiza una re-síntesis de una señal temporal 242 de la señal de ambiente (por ejemplo, en los medios de re-síntesis opcionales 240). La re-síntesis se explicará con mayor detalle a continuación. Además, el uso opcional está hecha de posprocesado (realizada por ejemplo en los medios opcionales 250 para la síntesis de una señal de audio multicanal y/o para el posprocesamiento) a fin de mejorar la impresión auditiva de la señal multicanal
20 obtenida (que consiste en, por ejemplo, en señales de ambiente 252, 254). El procesamiento posterior opcional también se explicará con mayor detalle a continuación.
[0061] Los detalles relativos a las etapas de procesamiento individuales que se muestran en el contexto de la figura 2 se explicarán a continuación. De este modo, también se hace referencia a la figura 3, que muestra un
25 diagrama de bloques más detallado de un aparato de la invención para generar una señal de ambiente de una señal de audio.
[0062] El aparato 300 de acuerdo con la figura 3 está configurado para recibir una señal de entrada 308 presente, por ejemplo, en la forma de una señal de entrada x(t) continua en el tiempo o en la forma de una señal de entrada de 30 tiempo discreto x[n]. De lo contrario, la señal de entrada 308 corresponde a la señal de entrada 208 del aparato 200.
[0063] El aparato 300 comprende además un convertidor de señal de tiempo a distribución de tiempo-frecuencia de 310. El convertidor de señal de tiempo a distribución de tiempo-frecuencia 310 está configurado para recibir la señal de entrada 308 y para proporcionar una representación de una distribución tiempo-frecuencia (TFD) 312. La
35 representación de la distribución tiempo-frecuencia 312 corresponde de otro modo sustancialmente a la representación 212 de la distribución tiempo-frecuencia en el aparato 200. Se ha de señalar además que a continuación, la distribución tiempo-frecuencia también se representa con X(ω,k).
[0064] Se ha de señalar además que la distribución tiempo-frecuencia X(ω,k) también puede ser la señal de
40 entrada del aparato 300, es decir, puede omitirse el aparato 310. El aparato 300 comprende además (opcionalmente) un divisor de magnitud-fase 314. El divisor de magnitud-fase 314 se utiliza preferiblemente cuando la distribución tiempo-frecuencia 312 puede adoptar valores complejos (no puramente reales). En este caso, el divisor de magnitud-fase 314 está configurado preferiblemente para proporcionar una representación de la magnitud 316 de la distribución tiempo-frecuencia 312, así como una representación de fase 318 de la distribución tiempo
45 frecuencia 312, en base a la distribución tiempo-frecuencia 312. Por el contrario, la representación de la magnitud de la distribución tiempo-frecuencia 312 también se designa con ⏐X(ω,k)⏐. Se ha de apreciar que la representación de la magnitud 316 de la distribución tiempo-frecuencia 312 puede sustituirse por la representación 212 en el aparato
200.
50 [0065] Además, se ha de apreciar que el uso de la representación de la fase 318 de la distribución tiempofrecuencia 312 es opcional. También se ha de apreciar que la representación de fase 318 de la distribución tiempofrecuencia 312 se designa en algunos casos, también con φ (ω,k).
[0066] Se supone adicionalmente que la representación de la magnitud 316 de la distribución tiempo-frecuencia 55 312 está presente en forma de matriz.
[0067] El aparato 300 comprende adicionalmente un aproximador de matriz 320 configurado para aproximar la representación de magnitud 316 de la distribución tiempo-frecuencia 312 por un producto de dos matrices W, H, como se describirá a continuación. El aproximador de matriz 320 corresponde sustancialmente a los medios 220 para la aproximación como usa en el aparato 200. Por lo tanto, el aproximador de matriz 320 recibe la representación de la magnitud 316 de la distribución tiempo-frecuencia 312 y proporciona una aproximación 322 de
la representación de magnitud 316. La aproximación 322 también se designa en algunos casos con X(ω,k). De otro modo, la aproximación 322 corresponde a la representación aproximada 222 de la figura 2.
5 [0068] El aparato 300 comprende adicionalmente un formador de diferencia 330 que recibe tanto la representación de magnitud 316 como la aproximación 322. Además, el formador de diferencia 330 proporciona una representación de discriminación 332 que corresponde sustancialmente a la representación ⏐A (ω,k)⏐ descrita a continuación. De lo contrario, hay que señalar que la representación de discriminación 332 también corresponde sustancialmente a la
10 representación de discriminación 232 en el aparato 200.
[0069] El aparato 300 comprende adicionalmente un sumador de fase 334. El sumador de fase 334 recibe la representación de discriminación 332, así como la representación de fase 318 y, por lo tanto, añade una fase a los elementos de la representación de discriminación 332, como se describe por la representación de fase 318. Por lo 15 tanto, el sumador de fase 334 proporciona una representación de discriminación 336 dotada de una fase, que también se designa con A(ω,k). Ha de apreciarse que el sumador de fase 334 puede ser considerado como opcional, de modo que, si se omite el sumador de fase 334, la representación de discriminación 332 pueda, por ejemplo, estar sustituida por la representación de discriminación 336 dotada de una fase. Se ha de señalar además que, en función de cada caso particular, tanto la representación de discriminación 332 como la representación de discriminación 336
20 provista de una fase pueden corresponder a la representación de discriminación 232.
[0070] El aparato 300 comprende además un convertidor (opcional) de distribución tiempo-frecuencia a señal de tiempo 340. El convertidor (opcional) de distribución tiempo-frecuencia a señal de tiempo 340 está configurado para recibir la representación de discriminación 336 provista de una fase (como alternativa: la representación de
25 discriminación 332) y proporcionar una señal temporal 342 (también de signada con a(t) o a[n]) formando una representación de dominio de tiempo (o representación de señal de tiempo) de la señal de ambiente.
[0071] Se ha de observar adicionalmente que el convertidor (opcional) de distribución tiempo-frecuencia a señal de tiempo 340 corresponde sustancialmente a los medios de re-síntesis 240 según la figura 2. Además, la señal 342
30 proporcionada por el convertidor de distribución tiempo-frecuencia a señal de tiempo 340 corresponde sustancialmente a la señal 242, como se muestra en el aparato 200.
Distribución tiempo-frecuencia de la señal de entrada
35 [0072] A continuación se describe la manera en que se puede calcular una distribución tiempo-frecuencia (TFD) de la señal de entrada, es decir, por ejemplo, una representación 212, 312. Las distribuciones tiempo-frecuencia (TFD) son representaciones y/o ilustraciones de una señal temporal (es decir, por ejemplo, de la señal de entrada 208 o la señal de entrada 308) tanto frente al tiempo como a la frecuencia. Entre las formulaciones múltiples de una distribución tiempo-frecuencia (por ejemplo, usando un banco de filtros o una transformada discreta del coseno
40 (DCT)), la transformada de Fourier de corto tiempo (STFT) es un procedimiento flexible y eficiente computacionalmente para el cálculo de la distribución tiempo-frecuencia. La transformada de Fourier de corto tiempo (STFT) X (ω,k) con el contenedor de frecuencia o índice de frecuencia ω y el índice de tiempo k se calcula como una secuencia de transformadas de Fourier de los segmentos de datos de ventana de la señal temporal discreta x[n] (es decir, por ejemplo, de la señal de entrada 208, 308). Por lo tanto, se cumple lo siguiente:
[0073] Aquí, w[n] representa la función de ventana. La relación entre el índice m y el índice de trama (o índice de tiempo) k es una función de la longitud de la ventana y la cantidad de superposición de ventanas adyacentes.
50 [0074] Si la distribución tiempo-frecuencia (TFD) es de valores complejos (por ejemplo, en el caso de la utilización de una transformada de Fourier de corto tiempo (STFT)), en una realización preferida, el cálculo adicional se puede efectuar usando valores absolutos de los coeficientes de la distribución tiempo-frecuencia (TFD). Los valores y/o magnitudes absolutos de los coeficientes de la distribución tiempo-frecuencia (TFD) también se designan con
55 ⏐X(ω,k)⏐. En este caso, una información de fase φ (ω,k) = <X(ω,k) se almacena en la etapa de re-síntesis para su uso posterior. Ha de apreciarse que en el aparato 300, la representación de magnitud ⏐X(ω,k)⏐ se designa con 316.
La información de fase φ (ω,k) se designa con 318.
[0075] Ha de apreciarse que X(ω,k) denota coeficientes de Fourier individuales (en general: coeficientes individuales de una distribución tiempo-frecuencia), ya que pueden obtenerse, por ejemplo, por la STFT. En
5 contraste, X(ω,k) denota una matriz que contiene una pluralidad de coeficientes (ω,k). Por ejemplo, la matriz X(ω,k1) contiene coeficientes X(ω',k') para ω' = 1, 2, …, n y k' = k1, k1+1, k1+ m-1. Aquí, n es una primera dimensión de la matriz X(ω,k1), por ejemplo un número de filas, y m es una segunda dimensión de la matriz X(ω,k1). Por lo tanto, para un elemento Xi,j de la matriz X(ω,k1) se cumple lo siguiente:
[0076] Aquí, se cumple lo siguiente:
y
20 [0077] El contexto descrito también se muestra en la figura 4b.
[0078] En otras palabras, la matriz X(ω,k) comprende una pluralidad de valores de distribución de tiempo frecuencia X(ω,k).
25 [0079] Se ha de señalar adicionalmente que a continuación, el cálculo de una magnitud de una matriz, designada con ⏐X⏐, denota una formación de magnitud a nivel de elemento a menos que se represente de otro modo.
Aproximación de la distribución tiempo-frecuencia (TFD)
30 [0080] Se calcula una aproximación de la distribución tiempo-frecuencia de la señal de entrada utilizando un procedimiento de optimización numérica. La aproximación de la distribución tiempo-frecuencia, así como el procedimiento de optimización numérica se describen a continuación.
[0081] Una aproximación X (ω,k) de la matriz X(ω,k) se obtiene con la ayuda de un procedimiento de optimización
35 numérica minimizando el error de la aproximación. Aquí, la minimización significa una minimización con un error relativo de no más del 50%, preferiblemente no más del 20%. De lo contrario, una minimización puede ser una determinación de un mínimo absoluto o local.
[0082] De lo contrario, el error de aproximación se mide con la ayuda de una función de distancia o una función de
40 la divergencia. La diferencia entre una distancia y una divergencia es de naturaleza matemática y se basa en el hecho de que una distancia es simétrica en el sentido de que para una distancia entre dos matrices A, B se cumple lo siguiente:
[0083] En contraste con esto, la divergencia puede ser asimétrica.
[0084] Ha de apreciarse que la aproximación de la distribución tiempo-frecuencia o la matriz de tiempo-frecuencia de distribución de X(ω,k) que se describe a continuación puede, por ejemplo, efectuarse por medio de los medios de 50 aproximación 220 o el aproximador de matriz 320.
[0085] Se ha de señalar adicionalmente que la factorización de matriz no negativa (NMF) es un procedimiento adecuado para el cálculo de la aproximación.
Factorización de matriz no negativa (NMF)
[0086] A continuación, se describe la factorización de matriz no negativa. Una factorización de matriz no negativa (NMF) es una aproximación de una matriz V ∈ Rnxm con elementos no negativos, como un producto de dos matrices
W ∈ Rnxr
y H ∈ Rrxm . Aquí, para los elementos Wi,k de la matriz W yHi,k de la matriz H, se cumple lo siguiente:
y
[0087] En otras palabras, las matrices W y H se determinan de tal manera que se cumple lo siguiente:
[0088] Expresando este elemento de forma amplia, se cumple lo siguiente:
20 [0089] Si el rango r de la factorización satisface la condición
entonces el producto WH es una representación de datos comprimidos de V (véase [8]). Una explicación intuitiva de 25 la ecuación (2) es como se indica a continuación: la matriz V ∈ Rnxm se aproxima como la suma de los de r
wiwi
productos externos de un vector columna y un vector fila hi , en el que se cumple lo siguiente: i ∈ [1, r], ∈
Rnx1 hi
y ∈ R1xm. La materia objeto descrita se representa por un simple ejemplo en la figura 4a. En otras palabras, la figura 4a muestra un ejemplo ilustrativo de una factorización de matriz no negativa (NMF) con un rango de factorización r = 2.
30 [0090] Los factores W y H se calculan resolviendo el problema de optimización de la minimización de una función de coste c = f (V, WH) que mide el error de la aproximación. En otras palabras, la función de coste c mide el error de la aproximación, es decir, la distancia (y/o la divergencia) entre las matrices V y WH. Una medida de la distancia adecuada entre las dos matrices A y B es la norma de Frobenius DF(A,B) en su diferencia por elemento (ecuación
35 3):
[0091] La norma de Frobenius es ideal para datos distribuidos según Gauss no correlacionados (véase [9]). En 40 otras palabras, una función de coste c se calcula en la realización preferida, en la que se cumple lo siguiente:
[0092] En otras palabras, la aproximación X (ω,k) se calcula como el producto de dos matrices, W y H, en el que:
[0093] Una función de error más conocida es la divergencia generalizada de Kullback-Leibler (GKLD) (ecuación 4). La divergencia generalizada de Kullback-Leibler (GKLD) está más relacionada con una distribución de Poisson (véase [9]) o una distribución exponencial y, por lo tanto, incluso más adecuada para una aproximación de los
5 espectros de cantidad o magnitud de las señales de audio musicales. La definición de la divergencia generalizada de Kullback-Leibler entre dos matrices A y B es la siguiente:
10 [0094] De otro modo, Aij yBij son las entradas o elementos de matriz de las matrices A y B, respectivamente. [0095] En otras palabras, la función de coste c puede seleccionarse como se indica a continuación:
15 [0096] Lo que sigue es una descripción de cómo se pueden determinar las entradas de las matrices de aproximación W y H. Una técnica sencilla de optimización numérica conocida como descenso de gradiente iterativamente se acerca a un mínimo local (o global) de la función de coste f(x) mediante la aplicación de la regla de actualización y/o regla de iteración
con el tamaño de paso α y el gradiente ∇ƒ(X) de la función de coste.
25 [0097] Para el problema de optimización de acuerdo con la ecuación (2) con la función de coste de acuerdo con la ecuación (3), la regla de actualización aditiva o regla de iteración se da por las siguientes ecuaciones:
30 [0098] En el presente contexto se cumple lo siguiente:
[0099] Debe apreciarse adicionalmente que Lee y Seung han descubierto o identificado una regla de actualización
35 multiplicativa o regla de iteración de acuerdo con las ecuaciones (8) y (9) (véase [10]). Además, Lee y Seung han demostrado la relación de la regla de actualización multiplicativa con respecto al procedimiento de descenso de gradiente y la convergencia de los mismos. Las reglas de actualización multiplicativas son como se indican a continuación:
[0100] De nuevo, se cumple lo siguiente:
[0101] La velocidad y la solidez del procedimiento de descenso de gradiente dependen en gran medida de la elección correcta del tamaño del paso o anchura de paso α. Una ventaja principal de la regla de actualización multiplicativa sobre el procedimiento de descenso de gradiente es la independencia de la elección del tamaño del
10 paso o la anchura de paso. El procedimiento y el método es fácil de implementar, computacionalmente eficiente y garantiza la búsqueda de un mínimo local de la función de coste.
Factorización de matriz no negativa (NMF) en el contexto de la separación ambiente
15 [0102] En el contexto del procedimiento presentado, se usa una factorización de matriz no negativa (NMF) para calcular una aproximación del espectrograma de cantidad o magnitud ⏐X(ω,k)⏐ de la señal de audio de entrada x[n]. Con respecto a esto, cabe señalar que el espectrograma de magnitud ⏐X(ω,k)⏐ se obtiene a partir de la matriz X(ω,k) realizando una formación de magnitud que incluye todo el elemento. Dicho de otro modo, para el elemento que tiene los índices i, j de ⏐X(ω,k)⏐, designado con ⏐X(ω,k)⏐ij, se cumple lo siguiente:
[0103] Aquí, X(ω,k)ij designa un elemento de la matriz X(ω,k) con los índices i y j. Por otro lado, ⏐.⏐ designa la operación de formación de magnitud.
25 [0104] La factorización de matriz no negativa (NMF) de ⏐X⏐ da como resultado los factores W y H. En una realización preferida, se requiere un amplio rango de factorización r entre 40 y 100, dependiendo de la longitud de la señal y el contenido de la señal, para representar una cantidad suficiente de sonido directo o ruido particular mediante la aproximación.
30 [0105] En resumen, se muestra que mediante la factorización de matriz no negativa que se ha descrito anteriormente se consigue sustancialmente una representación aproximada de la distribución tiempo-frecuencia, que se designa con 222, por ejemplo, en el aparato 200 de acuerdo con la figura 2, y como se designa adicionalmente
con 322 o X (ω,k) en el aparato 300 de acuerdo con la figura 3. Un espectrograma de cantidad o magnitud ⏐A⏐ de la 35 señal de ambiente se obtiene básicamente mediante el cálculo de la diferencia entre la representación de cantidad o magnitud ⏐X⏐ de la distribución tiempo-frecuencia X y su aproximación WH, como se representa en la ecuación (10):
40 [0106] Sin embargo, el resultado de acuerdo con la ecuación 10 no se considera directamente como se explicará a continuación. Es decir, para aproximaciones que minimizan las funciones de coste que se han descrito anteriormente, la aplicación de la ecuación (10) da como resultado un espectrograma de cantidad o magnitud ⏐A⏐ con elementos de valor tanto negativo como positivo. Sin embargo, puesto que en una realización se prefiere que el espectrograma de cantidad o magnitud ⏐A⏐ incluya únicamente elementos de valor positivo, se prefiere emplear un
45 procedimiento que maneje los elementos de valor negativo de la diferencia ⏐X⏐ -WH.
[0107] Pueden emplearse varios procedimientos para la manipulación de los elementos negativos. Un sencillo enfoque para la manipulación de los elementos negativos consiste en multiplicar los valores negativos con un factor β entre 0 y -1 (β = 0,... -1). En otras palabras: -1 ≤β≤ 0. Aquí, β= 0 corresponde a una rectificación de media onda, y β = -1 corresponde a una rectificación de onda completa.
[0108] Una formulación general para el cálculo del espectrograma de magnitud o el espectrograma amplitud ⏐A⏐ de la señal de ambiente se determina por las siguientes ecuaciones:
15 en la que γ∈ [-1,0] es una constante.
[0109] Debe apreciarse que en la ecuación anterior, ⏐A⏐ik designa un elemento de matriz con los índices i y k del espectrograma de magnitud o espectrograma de amplitud ⏐A⏐. Además, (⏐X⏐ -WH)ik designa un elemento de matriz de una diferencia entre el espectrograma de magnitud o el espectrograma de amplitud ⏐X⏐de la distribución
20 tiempo-frecuencia y la aproximación asociada WH = X , que tiene los índices i y k.
[0110] Además, (WH)ik representa un elemento de matriz de la aproximación WH = X con los índices i y k. ⏐X⏐ik es un elemento de matriz del espectrograma de cantidad o magnitud ⏐X⏐ con los índices i y k. Por lo tanto, se puede apreciar a partir de las ecuaciones (11) y (12) que el factor βik y/o la rectificación de las entradas de la diferencia
25 (⏐X⏐-WH) se determina preferiblemente elemento por elemento.
[0111] A continuación, se describe un procedimiento alternativo para la determinación del espectrograma de cantidad o magnitud ⏐A⏐ de la señal de ambiente. Se obtiene una alternativa sencilla determinando en primer lugar el espectrograma de cantidad o magnitud ⏐A⏐ de la señal ambiental de acuerdo con
en la que 0 ≤ς≤1 y efectuando, después de esto, una rectificación de onda completa de elementos negativos en la matriz determinada de este modo ⏐A⏐. Aquí, el parámetro ς facilita el ajuste y/o control de la cantidad de ambiente
35 en comparación con la señal directa contenida en la señal de ambiente.
[0112] Debe apreciarse que el último procedimiento descrito, en contraste con el procedimiento descrito con respecto a las ecuaciones (11) y (12) implica el efecto, en el cálculo de la matriz ⏐A⏐, de que aparece una mayor cantidad de sonido o ruido directo en la señal de ambiente. Por lo tanto, típicamente, se prefiere el procedimiento
40 descrito en el contexto de las ecuaciones (11) y (12).
[0113] Adicionalmente, hay un tercer procedimiento alternativo adicional para determinar la matriz ⏐A⏐, como se describe a continuación. El tercer procedimiento alternativo consiste en añadir una restricción límite o condición límite con respecto a la función de coste con el fin de influir en la cantidad o el valor de los elementos de valor
45 negativo en el término [0114] En otras palabras, la elección apropiada de la restricción límite o condición límite respecto a la función de coste puede servir para conseguir que puedan producirse tan pocos valores negativos como sea posible (como alternativa: tan pocos valores positivos como sea posible), por ejemplo, en la diferencia ⏐A⏐ = ⏐X⏐-WH.
5 [0115] Dicho de otro modo, el procedimiento de optimización para determinar las entradas de las matrices W y H está adaptado de tal manera que la diferencia mencionada comprende preferiblemente valores positivos y/o valores comparativamente menos negativos (o viceversa).
[0116] Puede formularse una nueva función de coste 10
como se indica a continuación:
[0117] Aquí, ε es una constante para determinar la influencia de la restricción límite o condición límite en el coste total (o sobre el valor total de la función de coste c). La regla de actualización y/o regla de iteración para el descenso de gradiente se obtiene insertando el operador de derivación ∂c/∂H (de acuerdo con la ecuación 14) y el operador de
20 derivación ∂c/∂W en la ecuación (5). Para los operadores de derivación ∂c/∂H y ∂c/∂W, se cumple lo siguiente:
[0118] De otro modo, debe apreciarse que se prefiere el procedimiento como se ha descrito con respecto a las 25 ecuaciones (11) y (12) ya que es fácil de poner en práctica y proporciona buenos resultados.
[0119] En resumen, se muestra que la determinación de la matriz ⏐A⏐ que se ha descrito anteriormente, para lo cual se describieron tres procedimientos diferentes, puede ejecutarse, por ejemplo, mediante los medios de determinación de la diferencia 230 o el formador de diferencia 330.
Reconstrucción de la señal de tiempo
[0120] A continuación se muestra una descripción de cómo puede obtenerse la representación A(ω,k) proporcionada con una información de fase (también designada con 336) a partir de la representación de magnitud 35 ⏐A(ω,k)⏐ (también designada con 332) de la señal de ambiente.
[0121] El espectrograma complejo A(ω,k) de la señal de ambiente se calcula usando la fase φ = ∠X de la distribución tiempo-frecuencia (TFD) X de la señal de entrada 308 (también designada con x(t), x[n]) se calcula de acuerdo con la ecuación (16):
[0122] Aquí, φ es, por ejemplo, una matriz de valores de ángulo. En otras palabras, la información de fase o información de ángulo de la distribución tiempo-frecuencia (TFD) X se añade para todo el elemento a la
representación de cantidad o magnitud ⏐A⏐. En otras palabras, a una entrada o elemento de matriz Ai,j con un índice de fila i y un índice de columna j, se añade la información de fase de una entrada o elemento de matriz Xi,j con un índice de fila i y un índice de columna j, por ejemplo, por multiplicación con un respectivo número complejo de magnitud 1. El resultado total es una representación A(ω,k) de la señal de ambiente proporcionada con una
5 información de fase (designada con 336).
[0123] La señal de ambiente a[n] (o una representación de tiempo discreto de la señal de ambiente, o bien una representación en tiempo continuo de la señal de ambiente) se obtiene entonces (opcionalmente) a partir de la representación A(ω,k) dotada de una información de fase, sometiendo A(ω,k) a un proceso inverso de cálculo de la
10 distribución tiempo-frecuencia (TFD). Es decir, una representación A(ω,k) dotada de una información de fase se procesa, por ejemplo, por una transformada inversa de Fourier de tiempo corto con un esquema de superposición y suma que da como resultado la señal temporal de x[n] cuando se aplica a X(ω,k).
[0124] El procedimiento descrito se aplica de lo contrario a la superposición de segmentos de una longitud de unos
15 pocos segundos cada uno. Los segmentos son vistos usando una ventana de Hann para garantizar una transición suave entre los segmentos adyacentes.
[0125] Debe apreciarse que los procedimientos para la obtención de la representación de tiempo a[n] de la señal de ambiente descritos por último pueden realizarse, por ejemplo, en los medios 240 para la re-síntesis o en el
20 convertidor de distribución tiempo-frecuencia a señal de tiempo 340.
Montaje de una señal de audio multicanal
[0126] Se obtiene una señal 5.0 o una señal de audio 5.0 (es decir, por ejemplo, una señal de audio que
25 comprende un canal trasero izquierdo, un canal delantero central, así como un canal delantero derecho, un canal posterior izquierdo y un canal posterior derecho) mediante la alimentación de los canales posteriores (es decir, por ejemplo, al menos el canal trasero izquierdo o el canal trasero derecho, o tanto el canal posterior izquierdo como el canal posterior derecho) con la señal de ambiente. Los canales delanteros (es decir, por ejemplo, el canal delantero izquierdo, el canal central y/o el canal delantero derecho) reproducen la señal original. Aquí, por ejemplo, los
30 parámetros de ganancia y/o los parámetros de sonoridad aseguran que se obtiene una energía total (o permanece sustancialmente sin cambios) cuando se usa el canal central adicional.
[0127] Además, debe apreciarse que el concepto descrito para la generación de una señal de ambiente se puede emplear en cualquier sistema multicanal y sistemas de canales múltiples de reproducción de audio, por ejemplo, en
35 un sistema 7.0 (por ejemplo, en un sistema que tiene tres altavoces frontales, dos altavoces laterales y dos altavoces posteriores). Por lo tanto, la señal de ambiente puede suministrarse, por ejemplo, a uno o ambos altavoces laterales y/o a uno o ambos altavoces posteriores.
[0128] Después de la separación del ambiente (o después de la generación de la señal de ambiente), el
40 procesamiento adicional puede realizarse opcionalmente con el fin de obtener una señal de audio multicanal de alta calidad perceptual. Al montar una señal de audio multicanal a partir de un único canal, se desea que la imagen frontal se conserve mientras que se añade la impresión de amplitud. Por ejemplo, esto se consigue mediante la introducción o adición de retardo de unos pocos milisegundos a la señal de ambiente y/o por la supresión de porciones transitorias en la señal de ambiente. Además, es ventajosa la descorrelación de la señales de
45 alimentación de los altavoces posteriores o altavoces posteriores entre sí y/o en relación con las señales que alimentan a los altavoces delanteros.
Supresión de transitorios y/o supresión de picos u operaciones de ajuste
50 [0129] Los algoritmos para la detección de transitorios (y/o picos u operaciones de ajuste) y para manipular transitorios se usan en diversas aplicaciones de procesamiento de señales de audio, tal como para los efectos de audio digitales (véanse [11, 12]) y para el mezclado (véase [13]).
[0130] La supresión de los transitorios en el contexto de la mezcla tiene como objetivo mantener la imagen frontal.
55 Cuando el ruido transitorio o el sonido transitorio aparecen en la señal de ambiente, las fuentes que generan deestos transitorios (por ejemplo por medio de un oyente) no están localizadas en la parte frontal. Éste es un efecto no deseado: la "fuente de sonido directo" o parece más ancha (o más extendida) que en los originales o, peor aún, se percibe como una "fuente de sonido directo" independiente en la parte posterior del oyente.
Descorrelación de las señales de los canales posteriores o traseros
[0131] En la bibliografía, el término "descorrelación" describe un proceso que manipula una señal de entrada de tal manera que (2 o más) señales de salida muestran diferentes formas de onda pero suenan igual que la señal de 5 entrada (véase [14]). Si, por ejemplo, dos señales de ruido similares y coherentes de banda ancha se reproducen simultáneamente o se presentan por un par de altavoces, se percibirá un acontecimiento auditivo compacto (véase [15]). La disminución de la correlación de las dos señales de canal aumenta el ancho o la extensión percibida de la fuente de sonido o la fuente de ruido hasta que se perciben dos fuentes separadas. Una correlación de dos señales centradas x e y (es decir, señales que tienen un valor medio de cero) se expresan a menudo por medio del
10 coeficiente de correlación Rxy, como se describe por la ecuación (17):
[0132] Aquí, y* (k) representa el número complejo conjugado de y(k). Ya que el coeficiente de correlación no es
15 independiente de pequeños retrasos entre la señales x e y, otra medida para el grado de la similitud entre dos señales centradas x e y se define por el uso o la correlación entre canales Γ (véase [15]) o por la coherencia entre canales (véase [16]) (ecuación (18)). En la ecuación (18), la correlación entre canales o la coherencia entre canales Γ se define como se indica a continuación:
[0133] Aquí, la correlación cruzada normalizada rxy se define de acuerdo con la ecuación (19):
25 [0134] Los ejemplos de procesos de descorrelación son la reverberación natural y varios procesadores de señal (flanger, chorus, phaser, reverberación sintética).
[0135] Un anterior procedimiento de descorrelación en el campo del procesamiento de señal de audio se describe 30 en [17]. Aquí, se generan dos señales del canal de salida por la suma de la señal de entrada y una versión retardada de la señal de entrada, donde en un canal, se invierte la fase del canal retardado.
[0136] Otros procedimientos generan señales descorrelacionadas por medio de la convolución. Un par de señales de salida con una medida de correlación determinada o especificada se generan mediante convolución de la señal 35 de entrada con un par de respuestas de impulsos que están correlacionadas entre sí de acuerdo con el valor dado (véase [14]).
[0137] Se obtiene una descorrelación dinámica (es decir, variable en el tiempo) mediante el uso de filtros Allpass variables en el tiempo, es decir, filtros Allpass en los que las nuevas respuestas de fase aleatorias se calculan para 40 lapsos de tiempo adyacentes (véanse [18], [11]).
[0138] En [18], se describe un procedimiento de subbanda, en el que la correlación en las bandas de frecuencia individuales se cambia de forma variable.
45 [0139] En el contexto del procedimiento descrito aquí, se aplica una descorrelación a la señal de ambiente. En una configuración 5.1 (es decir, en una configuración con, por ejemplo, seis altavoces) (pero también en otra configuración con al menos dos altavoces) se desea que las señales de ambiente que finalmente se alimentan a los dos canales posteriores o traseros estén descorrelacionadas entre sí al menos en cierta medida.
50 [0140] Las propiedades deseadas del presente procedimiento son la difusión de campo de sonido (o difusión de
campo de ruido de o ampliación de campo de sonido o de ruido) y envolvente.
[0141] En lo que sigue y con referencia a la figura 5, se describe un aparato para obtener una señal de audio multicanal que comprende una señal de altavoz frontal y una señal de altavoz posterior de una señal de audio. El aparato 5 para obtener la señal de audio multicanal de acuerdo con la figura 5 se designa en su totalidad con 500. El aparato 500 recibe la señal de audio 508 o una representación 508 de la señal de audio. El aparato 500 comprende un aparato 510 para generar una señal de ambiente, en el que el aparato 510 recibe la señal de audio 508 o la representación 508 de la señal de audio. El aparato 510 proporciona una señal de ambiente 512. Debe apreciarse que, preferiblemente, el aparato 510 es el aparato 100 de acuerdo con la figura 1, el aparato 200 de acuerdo con la
10 figura 2 o aparato 300 de acuerdo con la figura 3.
[0142] La señal de ambiente 512, que puede estar presente en forma de una representación de dominio en el tiempo (o representación de tiempo-señal) y/o en una representación tiempo-frecuencia se alimenta adicionalmente a los medios de posprocesado 520. Los medios de posprocesado 520 son opcionales y pueden, por ejemplo,
15 comprender un reductor de pulso configurado para reducir o eliminar los transitorios presentes en la señal de ambiente 512. Aquí, los transitorios son partes de la señal de alta energía que pueden mostrar una pendiente de flanco mayor que una inclinación de flanco máxima admisible determinada. Además, los eventos transitorios también podrían de lo contrario ser picos de señal en la señal de ambiente 512, cuyas amplitudes exceden una cierta amplitud máxima dada.
20 [0143] Además, los medios de posprocesado 520 podrían (opcionalmente) comprender un retardador o medios de retardo que retrasan la señal de ambiente 512. Por lo tanto, los medios de posprocesado 520 proporcionan una señal de ambiente posprocesada 522 en la que, por ejemplo, los transitorios se reducen o se eliminan en comparación con la señal de ambiente (original) 512 y/o que, por ejemplo, se retrasa en comparación con la señal
25 de ambiente (original) 512.
[0144] Si se omiten los medios de posprocesado 520, entonces la señal 522 puede ser idéntica a la señal 512.
[0145] El aparato 500 comprende adicionalmente (de forma opcional) un combinador 530. Si el combinador está
30 incluido, el combinador 520, por ejemplo, proporciona una señal de altavoz posterior 532, que está formada por una combinación de la señal de ambiente posprocesada 522 y una versión (opcionalmente posprocesada) de la señal de audio original 508.
[0146] Si se omite el combinador opcional 530, entonces la señal 532 puede ser idéntica a la señal 522. El aparato
35 500 comprende adicionalmente (opcionalmente) un descorrelador 540, que recibe la señal del altavoz posterior 532 y en base al mismo suministra al menos dos señales de los altavoces posteriores descorrelacionadas 542, 544. La primera señal de altavoz posterior 542 puede, por ejemplo, representar una señal de altavoz posterior para un altavoz posterior izquierdo. La segunda señal de altavoz posterior 544 puede, por ejemplo, representar una señal de altavoz posterior para el altavoz posterior derecho.
40 [0147] En el caso más simple (por ejemplo, si se omiten los medios de posprocesado 520, el combinador 530 y el descorrelador 540), por ejemplo la señal de ambiente 512 generada por el aparato 510 se usa como la primera señal de altavoz posterior 542 y/o como la segunda señal de altavoz posterior 544. En general, se puede decir que, con respecto a los medios de posprocesado 520, el combinador 530 y/o el descorrelador 540, se considera la señal de
45 ambiente 512 generada por el aparato 510 para la generación de la primera señal de altavoz posterior 542 y/o para la generación de la segunda señal de altavoz posterior 544.
[0148] Por lo tanto, la presente invención comprende explícitamente el uso de la señal de ambiente 512 generada por el aparato 510 como una primera señal de altavoz posterior 542 y/o como una segunda señal de altavoz
50 posterior 544.
[0149] Asimismo, la presente invención también comprende explícitamente generar la primera señal de altavoz posterior 542 y/o la segunda señal de altavoz posterior 544 usando la señal de ambiente 512 generada por el aparato 510.
55 [0150] El aparato puede configurarse, opcionalmente, para generar una primera señal de altavoz frontal, una segunda señal de altavoz delantero y/o una tercera señal de altavoz frontal. Para este fin, por ejemplo, la señal de audio (original) 508 se suministra a los medios de posprocesado 550. Los medios de posprocesado 550 se configuran para recibir y procesar la señal de audio 508 y generar una señal de audio posprocesada 552, que, por ejemplo, (opcionalmente) se suministra al combinador 530. Si se omiten los medios de posprocesado, la señal 542 puede ser idéntica a la señal 508. De otro modo, la señal 552 forma una señal de altavoz frontal.
[0151] Preferiblemente, el aparato 500 comprende un divisor de señal 560 configurado para recibir la señal de
5 altavoz frontal 552 y generar, en base a la misma, una primera señal de altavoz frontal 562, una segunda señal de altavoz frontal 564 y/o una tercera señal de altavoz frontal 566. La primera señal de altavoz frontal 562 puede, por ejemplo, ser una señal de altavoz para un altavoz frontal izquierdo. La segunda señal de altavoz frontal 564 puede, por ejemplo, ser una señal de altavoz para un altavoz frontal derecho. La tercera señal de altavoz frontal 566 puede, por ejemplo, ser una señal de altavoz para un altavoz frontal central.
10 [0152] La figura 6 muestra de otro modo un diagrama de flujo de un procedimiento para crear una señal de ambiente a partir de una señal de audio. El procedimiento de acuerdo con la figura 6 se designa en su totalidad con
600. El procedimiento 600 comprende una primera etapa 610. La primera etapa 610 comprende la compresión con pérdidas de la señal de audio (o de una representación de la señal de audio) a fin de obtener una representación de
15 la señal de audio en la forma de compresión con pérdida. Una segunda etapa 620 del procedimiento 600 comprende calcular una diferencia entre la representación comprimida de la señal de audio y la representación de la señal de audio a fin de obtener una representación de discriminación.
[0153] Una tercera etapa 630 comprende proporcionar una señal de ambiente usando la representación de
20 discriminación. Por lo tanto, en su conjunto, el procedimiento 600 permite la generación de una señal de ambiente a partir de una señal de audio.
[0154] Debe apreciarse aquí que el procedimiento de la invención 600 de acuerdo con la figura 6 puede completarse por las etapas que se ejecutan por los aparatos anteriores. Por lo tanto, el procedimiento puede, por
25 ejemplo, modificarse y/o complementarse de forma que cumpla la función del aparato 100 de acuerdo con la figura 2, la función del aparato 200 de acuerdo con la figura 2, la función del aparato 300 de acuerdo con la figura 3, y/o la función del aparato 500 de acuerdo con la figura 5.
[0155] En otras palabras, el aparato y el procedimiento pueden implementarse en hardware o en software. La 30 implementación puede realizarse en un medio de almacenamiento digital, tal como un disco flexible, un CD, un DVD
o una memoria flash con señales de control legibles electrónicamente que cooperan de tal modo que con un sistema informático programable se ejecuta el procedimiento respectivo. De acuerdo con la presente invención, por lo tanto, se proporciona un programa informático, como se expone en la reivindicación independiente 5.
35 Descripción general del procedimiento
[0156] En resumen, se puede decir que se genera una señal de ambiente a partir de la señal de entrada y se suministra a los canales posteriores. Aquí, puede usarse un concepto como se describe bajo el título "Concepto Directo/Ambiente". La quinta esencia de la invención se refiere al cálculo de la señal de ambiente, en la que la figura
40 2 muestra un diagrama de bloques de un procesamiento, ya que puede usarse para la obtención de la señal de ambiente.
[0157] En resumen, se muestra lo siguiente:
45 [0158] Una distribución tiempo-frecuencia (TFD) de la señal de entrada se calcula como se analiza en el epígrafe "Distribución tiempo-frecuencia de la señal de entrada". Una aproximación de la distribución tiempo-frecuencia (TFD) de la señal de entrada se calcula usando el procedimiento de optimización numérica, como se describe en la sección "Aproximación de la distribución tiempo-frecuencia". Mediante el cálculo de una distinción o diferencia entre la distribución tiempo-frecuencia (TFD) de la señal de entrada y su aproximación, se obtiene una estimación de la
50 distribución tiempo-frecuencia (TFD) de la señal de ambiente. La estimación se designa también con ⏐A⏐ y/o A. Una re-síntesis de la señal temporal de la señal ambiental se explica también en la sección con el título "Reconstrucción de la señal temporal". Además, el posprocesado puede usarse (opcionalmente) para mejorar la impresión auditiva de la señal multicanal obtenida, como se describe en el título "Montaje de una señal de audio multicanal".
55 Conclusión
[0159] En resumen, se puede decir que lo anterior describe un procedimiento y un concepto para separar una señal de ambiente a partir de señales de un único canal de audio (o de una señal de audio de un canal). La señal de ambiente obtenida muestra una alta calidad de audio. Comprende elementos de sonido o elementos de ruido procedentes del ambiente, es decir, reverberación, el ruido público, así como el ruido ambiente o del entorno. La cantidad o el volumen de sonido directo o ruido directo en la señal de ambiente es muy baja o incluso evanescente.
[0160] Las razones para el éxito del procedimiento descrito pueden describirse como se indica a continuación de 5 forma simplificada:
[0161] Las distribuciones tiempo-frecuencia (TFD) de sonido directo o ruido directo son generalmente más escasas o menos densas que las distribuciones de frecuencia-tiempo (TFD) de ruido ambiente o sonido ambiente. Es decir, la energía del ruido directo o sonido directo se concentra más en menos celdas o entradas de matriz que la 10 energía de ruido ambiente o sonido ambiente. Por lo tanto, la aproximación directa detecta el ruido o el sonido directo, pero no (o sólo en muy poca medida) el ruido ambiente o el sonido ambiente. Como alternativa, se puede decir que la aproximación directa detecta el ruido o el sonido directo en mayor grado que el ruido ambiente o el sonido ambiente. Por lo tanto, la distinción o diferencia entre la distribución tiempo-frecuencia (TFD) de la señal de entrada y su aproximación es una buena representación de la distribución tiempo-frecuencia (TFD) de todo el ruido
15 ambiental y/o sonido ambiental presente en la señal de entrada.
[0162] Sin embargo, lo anterior comprende un procedimiento de cálculo de señales multicanal (o una señal multicanal) a partir de una señal de un canal o una señal de dos canales (o de las señales de un canal o señales de dos canales). Por lo tanto, el uso del procedimiento descrito y concepto permite el suministro de grabaciones
20 convencionales en un sistema de múltiples canales (o sistemas de canales múltiples) de una manera en la que se mantienen las ventajas de la representación multi-señal.
[0163] Además, debe apreciarse que preferiblemente, no se usa ningún efecto de audio artificial y que la manipulación del sonido y/o señales de audio únicamente implican envolvimiento y amplitud. No hay ninguna 25 coloración del tono del sonido original o del ruido original. Se mantiene la impresión auditiva prevista por el autor de la señal de audio.
[0164] Por lo tanto, se puede decir que el procedimiento descrito y el concepto superan inconvenientes sustanciales de los procedimientos o conceptos conocidos. Debe apreciarse que los procedimientos de adaptación
30 de señal descritos en la introducción calculan la señal de canal posterior (es decir, la señal para los altavoces posteriores) mediante el cálculo de las diferencias entre canales de la señal de entrada de dos canales. Por lo tanto, estos procedimientos no son capaces de generar una señal multicanal a partir de una señal de entrada de acuerdo con la opción 3 cuando ambos canales de la señal de entrada son idénticos (es decir, cuando la señal de entrada es una señal dual-mono) o cuando las señales de los dos canales son casi idénticas.
35 [0165] El procedimiento descrito en el título "Pseudostereofonía basada en un entorno espacial" siempre requerirá una versión multi-canal del mismo contenido o un operador que genera las pistas espaciales manualmente. Por lo tanto, el procedimiento conocido mencionado no puede emplearse ni de manera en tiempo real ni automáticamente cuando no hay una versión multi-canal de la misma señal de entrada.
40 [0166] En contraste, el procedimiento y el concepto descritos en este documento son capaces de generar una señal de ambiente de una señal de un canal sin ninguna información previa sobre la señal. Además, no se utilizan objetos de audio sintético o efectos de audio (tales como reverberación).
45 [0167] A continuación, se describe una elección particularmente ventajosa de parámetros para la aplicación del concepto anterior.
[0168] En otras palabras, a continuación, se describen los ajustes de parámetros óptimos para el procedimiento de separación de ambiente para aplicaciones mono-upmix. Además, se darán valores mínimos y máximos de los 50 parámetros, que, aunque pueden funcionar, no producen resultados óptimos con respecto a la calidad de audio y/o la carga de procesamiento requerida.
[0169] Aquí, el tamaño del parámetro FFT (nfft) describe cómo se procesan muchas bandas de frecuencia. En otras palabras, el tamaño del parámetro FFT indica, cuántas frecuencias discriminables existen ω1 a ωn. Por lo tanto, 55 el tamaño del parámetro FFT es también una medida de cuán grande es una primera dimensión (por ejemplo, un número de filas de la matriz) de la matriz X(ω,k). En otras palabras, el tamaño del parámetro FFT describe el número de filas (o columnas) de la matriz X(ω,k). Por lo tanto, el tamaño del parámetro FFT, por ejemplo, corresponde al valor n. Además, el tamaño del valor FFT también describe cuántas muestras se usan para el cálculo de una única entrada Xi,j de la X. Dicho de otro modo, se usan las muestras nfft de una representación de tiempo de la señal de
entrada para calcular en base a estas los coeficientes espectrales nfft para frecuencias nfft diferentes ω1 a ωnfft. Por lo tanto, en base a las muestras nfft, se calcula una columna de la matriz X(ω,k).
[0170] La ventana que define las muestras contempladas de la señal de entrada se desplaza entonces varias
5 muestras definidas por el salto de parámetros. Las muestras nfft de la señal de entrada definida por la ventana desplazada se mapean entonces con respecto a los coeficientes espectrales nfft por una transformada de Fourier, definiendo el coeficiente espectral una columna siguiente de la matriz X.
[0171] Se puede decir a modo de ejemplo que la primera columna de la matriz X puede estar formada por una
10 transformada de Fourier de las muestras de la señal de entrada con los índices 1 a nfft. La segunda columna de la matriz X puede estar formada por una transformada de Fourier de las muestras de la señal de entrada con los índices 1 + salto a nfft + salto.
[0172] La longitud del segmento de parámetros indica cuán largo es un segmento de una trama de señal, cuyo
15 espectrograma se factoriza. En otras palabras, la longitud del segmento de parámetros describe cuán larga es una duración de tiempo de la señal de audio de entrada que se considera para el cálculo de las entradas de la matriz X. Por lo tanto, se puede decir que la matriz X describe la señal de tiempo de entrada durante un período igual a la longitud del segmento de parámetros (SegLen).
20 [0173] El rango de factorización de parámetros describe el rango de factorización de la factorización de matriz no negativa, es decir, el parámetro r. Dicho de otro modo, el rango de factorización de parámetros indica cuán grande es una dimensión de la primera matriz de aproximación W y una dimensión de la segunda matriz de aproximación H.
[0174] Los valores preferidos para los parámetros se dan en la siguiente tabla: 25
Parámetro
Descripción Unidad Mín. Máx. Valor óptimo
Tamaño de FFT (nfft)
Tamaño de una trama de señal para FFT Muestras 1024 4096 2048 ó 4096
Tamaño de salto (salto)
Tamaño de salto para FFT Muestras 1 nfft 0,125* nfft o 0,20,25* nfft
Longitud del segmento (segLen)
Tamaño de trama de señal cuyo espectrograma se está factorizando Segundos 1 Longitud de la señal de entrada 2-4
Rango de factorización
Rango de factorización de NMF 10 Número de columnas del espectrograma 40...100
[0175] Como parámetro adicional, se determina adicionalmente qué medida de error c se usa para el cálculo de la NMF. Se prefiere el uso de la divergencia de Kullback-Leibler cuando se procesan espectrogramas de cantidad o magnitud. Se pueden usar otras medidas de distancia cuando se procesan los valores de espectrograma con los
30 valores de espectrograma de energía o del logaritmo tomado (SPL).
[0176] Además, debe apreciarse que los intervalos de valor preferidos se han descrito anteriormente. Cabe señalar que, usando el procedimiento anterior, el tamaño de la FFT puede estar en un intervalo de 128 a 65.536. El tamaño de salto puede estar entre 1/6 4 del tamaño de la FFT y una unidad del tamaño de la FFT. La longitud del
35 segmento asciende típicamente a al menos 0,1 segundos.
[0177] Para resumir brevemente, se puede decir que la presente invención comprende un nuevo concepto o procedimiento de cálculo de una señal de ambiente a partir de una señal de audio. La señal de ambiente obtenida es de particular beneficio para la mezcla de señales de audio de música para su reproducción en sistemas de canales
40 múltiples. Una ventaja del concepto o procedimiento inventivo descrito en comparación con otros procedimientos, es su capacidad para procesar señales de un canal sin usar efectos de audio sintéticos.
[0178] Además, debe apreciarse que la presente invención también puede usarse en un sistema sencillo. Puede contemplarse un sistema, en el que sólo uno de los altavoces delantero y un altavoz posterior están presentes y/o
45 activos. En este caso, por ejemplo, la señal de audio original puede reproducirse en el altavoz delantero. La señal ambiental obtenida a partir de la señal de audio original se puede reproducir en el altavoz posterior. En otras palabras, la señal mono de audio original se puede reproducir como una señal mono en un altavoz delantero único, mientras que la señal de ambiente obtenida de la señal de audio original se reproduce como un canal de posterior único.
[0179] Sin embargo, si hay varios canales, pueden procesarse individualmente. En otras palabras, se considera un primer canal de la señal de audio original para la generación de una primera señal de ambiente, y se usa un segundo canal de la señal de audio original para generar una segunda señal de ambiente. Después, el primer canal
5 de la señal de audio original se reproduce, por ejemplo, en un altavoz frontal primero (por ejemplo, izquierdo delantero), y el segundo canal de la señal de audio original se reproduce, por ejemplo, en un segundo altavoz frontal (por ejemplo, frontal derecho). Además, por ejemplo, la primera señal de ambiente se reproduce en un primer altavoz posterior (por ejemplo, trasero izquierdo), mientras que la segunda señal de ambiente se reproduce, por ejemplo, en un segundo altavoz posterior (por ejemplo, derecho trasero).
10 [0180] Por lo tanto, también es posible generar dos señales de altavoces posteriores a partir de dos señales de altavoz frontal en la forma descrita.
[0181] En una realización adicional, la señal de audio original comprende tres canales, por ejemplo, un canal
15 delantero izquierdo, un canal central frontal y un canal delantero derecho. Por lo tanto, se obtiene una primera señal de ambiente a partir del primer canal (por ejemplo, canal delantero izquierdo) de la señal de audio original. A partir del segundo canal (por ejemplo, canal central frontal) de la señal de audio original, se obtiene una segunda señal de ambiente. A partir del tercer canal (por ejemplo canal delantero derecho) de la señal de audio original, se obtiene una tercera señal de ambiente (opcionalmente).
20 [0182] Después, dos de las señales ambientales (por ejemplo la primera señal de ambiente y la segunda señal de ambiente) se combinan (por ejemplo, mezcladas o combinadas por una suma ponderada o no ponderada) con el fin de obtener una primera señal de altavoz de ambiente, que se suministra a un primer altavoz de ambiente (por ejemplo, un altavoz trasero izquierdo).
25 [0183] Opcionalmente, además, dos señales de ambiente adicionales (por ejemplo, la segunda señal de ambiente y la tercera señal de ambiente) se combinan para obtener una segunda señal de altavoz de ambiente que se suministra a un segundo altavoz de ambiente (por ejemplo, un altavoz trasero derecho).
30 [0184] Por lo tanto, se forma una primera señal de altavoz de ambiente por una primera combinación de señales de ambiente, cada una formada a partir de un canal de la señal de audio multicanal original, mientras que una segunda señal de altavoz de ambiente se forma mediante una segunda combinación de las señales de ambiente. La primera combinación comprende preferiblemente al menos dos señales de ambiente, y la segunda combinación comprende preferiblemente al menos dos señales de ambiente. Además, se prefiere que la primera combinación sea
35 diferente de la segunda combinación, en la que, sin embargo, se prefiere que la primera combinación y la segunda combinación usen una señal de ambiente común.
[0185] Además, debe apreciarse que una señal de ambiente generada en la forma de la invención puede también suministrar, por ejemplo, a un altavoz lateral si se usa, por ejemplo, una disposición de altavoces que comprende
40 altavoces laterales. Por lo tanto, puede suministrarse una señal de ambiente a un altavoz lateral izquierdo en un uso de una disposición de altavoces 7.1. Además, también puede suministrarse una señal de ambiente al altavoz lateral derecho, en el que la señal de ambiente suministrada al altavoz lateral izquierdo difiere preferiblemente de la señal de ambiente suministrada al altavoz derecho.
45 [0186] Por lo tanto, la presente invención en su conjunto proporciona una extracción particularmente buena de una señal de ambiente de una señal de un canal.
Referencias:
50 [0187]
[1] C. Faller, Pseudostereophony Revisited, Presentado en la 118ª Convención de AES, Barcelona, España, 2005.
[2] R. Dressler, "Dolby Surround Prologic2Decoder -Principles of operation", Tech. Rep., Dolby Laboratories, http://www.dolby.com/assets/pdf/tech library/208 Dolby Surround Pro Logic Decoder.pdf, 2000.
55 [3] DTS Technical Stuff, "An overview of DTS NEo:6 multi-channel", DTS, http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf.
[4] Harman Kardon Technical Staff, "Logic 7 explained", Harman Kardon, http://manuals.harman.com/HK/Technology%20Articles/logic7-TechSheet.pdf.
[5] C. Avendano y J. M. Jot, "Ambience Extraction and Synthesis from Stereo Signals for Multi-channel Audio Upmix", Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Orlando, Fl, mayo de 2002.
[6] R. Irwan y R. M. Aarts, "A method to convert stereo to multi-channel sound", Presentado en la 19ª Conferencia Internacional de AES, Schloss Elmau, Alemania, 21-24 de junio, páginas 139-143, 2001.
5 [7] G. Soulodre, "Ambience-Based Upmixing", Workshop Spatial Coding of Surround Sound: A Progress Report, Presentado en la 117ª Convención de AES, San Francisco, CA, Estados Unidos, 2004.
[8] D. Lee y H. Seung, "Learning the parts of objects by Non-negative Matrix Factorization", en Letters To Nature, 1999.
[9] A. Cichocki, R. Zdunek y S. Amari, "New algorithms for Non-negative Matrix Factorization in applications to Blind
10 Source Separation". En Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2006.
[10] D. Lee y H. Seung, "Algorithms for Non-negative Matrix Factorization". In Proceedings of NIPS, 2001.
[11] C. Duxbury, M. Davies, M. Sandler, "Separation of transient information in musical audio using multiresolution analysis techniques", en Proceedings of DAFX-01, 2001.
15 [12] M. Goodwin y C.Avendano, "Enhancement of Audio Signals Using Transient Detection and Modification", Presentado en la 117ª Convención de AES, San Francisco, CA, Estados Unidos, 2004.
[13] A. Walther, C. Janssen, J. Herre y O. Hellmuth "Transient suppression in ambience-like signals "Patent FPL-Fallnummer: 06F47242-IIS.
[14] G. Kendall, "The decorrelation of audio signals and its impact on spatial imagery", Computer Music Journal, 19:4, 20 1995.
[15] C. Faller y F. Baumgarte, "Binaural Cue Coding- Part 2: Schemes and Applications", IEEE TSAP, 2003.
[16] C. Faller, "Parametric coding of spatial audio", Phd thesis, 2004.
[17] M. Schroeder, "An artificial stereophonic effect obtained from using a single signal", JAES 6: 74, 1957.
[18] G. Potard y I. Burnett, "Decorrelation techniques for the rendering of apparent sound source width in 3D audio 25 displays", en Proceedings of DAFX-04, 2004.

Claims (4)

  1. REIVINDICACIONES
    1. Aparato (500) para obtener una señal de audio multi-canal que comprende una señal de altavoz frontal
    (562, 564, 566) y una señal de altavoz posterior (542, 544) a partir de una señal de audio (108; 208; 308; 508), que 5 comprende:
    un aparato (100; 200; 300; 510) para generar una señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) a partir de la señal de audio (108; 208; 308; 508), en el que el aparato (100; 200; 300; 510) para generar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342;
    10 512) a partir de la señal de audio (108; 208; 308; 508) comprende:
    medios (110; 220; 320) para una compresión con pérdidas de una primera representación (108; 212; 316; X(ω,k)) de
    la señal de audio con el fin de obtener una representación comprimida (112; 222; 322; X (ω,k)) de la señal de audio; y
    15 medios (120; 230; 330) para calcular una diferencia entre la representación comprimida (112; 222; 322; X (ω,k)) de la señal de audio y la primera representación (108; 212; 316; X(ω,k)) de la señal de audio con el fin de obtener una representación de discriminación (122; 232; 332, 336; ⏐A (ω,k)⏐), describiendo la representación de discriminación la diferencia entre la primera representación de la señal de audio y la representación comprimida de la señal de audio, y
    20 describiendo la representación de discriminación las porciones de la señal de audio no incorporadas en la representación comprimida con pérdidas o eliminadas en la representación comprimida con pérdidas, y en el que los medios para la compresión con pérdidas se configuran de tal forma que se prefiere que las porciones de señal que muestran una distribución regular de la energía o que llevan una gran energía de señal se incluyan en la representación comprimida, mientras que las porciones de señal que tienen una energía distribuida de forma
    25 irregular o una energía inferior se transfieren a la representación comprimida de forma atenuada o sólo en escasa medida; en el que la representación de discriminación forma la señal de ambiente; un aparato (550, 560) para proporcionar la señal de audio (108; 208; 308; 508) o una señal obtenida a partir del mismo como la señal de altavoz frontal (562, 564, 566); y
    30 un aparato que proporciona la señal del altavoz posterior (520, 530, 540) para proporcionar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) proporcionada por el aparato (510) para generar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) o una señal obtenida a partir del mismo como la señal de altavoz posterior (542, 544).
    35 2. Aparato (500) para obtener una señal de audio multi-canal que comprende una señal de altavoz frontal (562, 564, 566) y una señal de altavoz posterior (542, 544) a partir de una señal de audio (108; 208; 308; 508), que comprende:
    un aparato (100; 200; 300; 510) para generar una señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) a 40 partir de la señal de audio (108; 208; 308; 508),
    en el que el aparato (100; 200; 300; 510) para generar la señal de ambiente (132; 232, 242, 252, 254; 332, 336, 342; 512) a partir de la señal de audio (108; 208; 308; 508) comprende:
    45 medios (110; 220; 320) para una compresión con pérdidas de una primera representación (108; 212; 316; X(ω,k)) de
    la señal de audio con el fin de obtener una representación comprimida (112; 222; 322; X (ω,k)) de la señal de audio,
    medios (120; 230; 330) para calcular una diferencia entre la representación comprimida (112; 222; 322; X (ω,k)) de la señal de audio y la primera representación (108; 212; 316; X(ω,k)) de la señal de audio con el fin de obtener una 50 representación de discriminación (122; 232; 332, 336; ⏐A (ω,k)⏐),
    describiendo la representación de discriminación la diferencia entre la primera representación de la señal de audio y la representación comprimida de la señal de audio, y
    55 describiendo la representación de discriminación las porciones de la señal de audio no incorporadas en la representación comprimida con pérdidas o eliminadas en la representación comprimida con pérdidas, y medios (130, 240, 340) para proporcionar la señal de ambiente (132; 242, 252, 254; 336, 342; a(t), a[n]) usando la representación de discriminación,
    en el que los medios para la compresión con pérdidas se configuran de tal forma que se prefiere que las porciones
    5 de señal que muestran una distribución regular de la energía o que llevan una gran energía de señal se incluyan en la representación comprimida, mientras que las porciones de señal que tienen una energía distribuida de forma irregular o una energía inferior se transfieren a la representación comprimida de forma atenuada o sólo en escasa medida;
    10 en el que el aparato (510) para generar la señal de ambiente (132; 230, 242, 252, 254; 332, 336, 342; 512) se configura para recibir la señal de audio (108; 208; 308; 508);
    un aparato (550, 560) para proporcionar la señal de audio (108; 208; 308; 508) o una señal obtenida a partir del mismo como la señal de altavoz frontal (562, 564, 566); y
    15 un aparato que proporciona la señal del altavoz posterior (520, 530, 540) para proporcionar la señal de ambiente (132; 230, 242, 252, 254; 332, 336, 342; 512) proporcionada por el aparato (510) para generar la señal de ambiente (132; 230, 242, 252, 254; 332, 336, 342; 512) o una señal obtenida a partir del mismo como la señal de altavoz posterior (542, 544).
  2. 3. Procedimiento para obtener una señal de audio multi-canal que comprende una señal de altavoz frontal y una señal de altavoz posterior a partir de una señal de audio, que comprende:
    generar una señal de ambiente a partir de la señal de audio, en el que la generación de la señal de ambiente de la 25 señal de audio comprende
    la compresión con pérdidas (610) de una primera representación (108; 212; 316) de la señal de audio con el fin de obtener una representación comprimida (112; 222; 322) de la señal de audio; y
    30 calcular (620) una diferencia (122; 232; 332, 336) entre la representación comprimida de la señal de audio y la primera representación de la señal de audio con el fin de obtener una representación de discriminación (122; 232; 332, 336) que forme la señal de ambiente,
    en el que la representación de discriminación describe la diferencia entre la primera representación de la señal de 35 audio y la representación comprimida de la señal de audio, y
    en el que la representación de discriminación describe las porciones de la señal de audio no incorporadas en la representación comprimida con pérdidas o eliminadas en la representación comprimida con pérdidas, y
    40 en el que la compresión con pérdidas se realiza de tal forma que se prefiere que las porciones de señal que muestran una distribución regular de la energía o que llevan una gran energía de señal se incluyan en la representación comprimida, mientras que las porciones de señal que tienen una energía distribuida de forma irregular o una energía inferior se transfieren a la representación comprimida de forma atenuada o sólo en escasa medida;
    45 en el que la representación de discriminación forma la señal de ambiente;
    proporcionar la señal de audio o una señal obtenida a partir del mismo como la señal de altavoz frontal; y
    50 proporcionar la señal de ambiente o una señal obtenida a partir del mismo como la señal de altavoz posterior.
  3. 4. Procedimiento para obtener una señal de audio multi-canal que comprende una señal de altavoz frontal y una señal de altavoz posterior a partir de una señal de audio, que comprende:
    55 generar una señal de ambiente a partir de la señal de audio, en el que la generación de la señal de ambiente de la señal de audio comprende
    la compresión con pérdidas (610) de una primera representación (108; 212; 316) de la señal de audio con el fin de obtener una representación comprimida (112; 222; 322) de la señal de audio;
    calcular (620) una diferencia (122; 232; 332, 336) entre la representación comprimida de la señal de audio y la primera representación de la señal de audio con el fin de obtener una representación de discriminación (122; 232; 332, 336), y
    5 proporcionar (630) la señal de ambiente usando la representación de discriminación,
    en el que la representación de discriminación describe la diferencia entre la primera representación de la señal de audio y la representación comprimida de la señal de audio, y
    10 en el que la representación de discriminación describe las porciones de la señal de audio no incorporadas en la representación comprimida con pérdidas o eliminadas en la representación comprimida con pérdidas, y
    en el que la compresión con pérdidas se realiza de tal forma que se prefiere que las porciones de señal que
    15 muestran una distribución regular de la energía o que llevan una gran energía de señal se incluyan en la representación comprimida, mientras que las porciones de señal que tienen una energía distribuida de forma irregular o una energía inferior se transfieren a la representación comprimida de forma atenuada o sólo en escasa medida;
    20 proporcionar la señal de audio o una señal obtenida a partir del mismo como la señal de altavoz frontal; y
    proporcionar la señal de ambiente o una señal obtenida a partir del mismo como la señal de altavoz posterior.
  4. 5. Programa de ordenador para realizar el procedimiento de acuerdo con las reivindicaciones 3 ó 4 25 cuando el programa de ordenador se ejecuta en un ordenador.
ES12168768.5T 2006-10-24 2007-10-23 Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio Active ES2461191T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006050068 2006-10-24
DE102006050068A DE102006050068B4 (de) 2006-10-24 2006-10-24 Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm

Publications (1)

Publication Number Publication Date
ES2461191T3 true ES2461191T3 (es) 2014-05-19

Family

ID=38988087

Family Applications (2)

Application Number Title Priority Date Filing Date
ES07819257T Active ES2391308T3 (es) 2006-10-24 2007-10-23 Aparato y procedimiento para generar una señal de ambiente a partir de una señal de audio, aparato y procedimiento para obtener una señal de audio multi-canal a partir de una señal de audio, y programa de ordenador
ES12168768.5T Active ES2461191T3 (es) 2006-10-24 2007-10-23 Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES07819257T Active ES2391308T3 (es) 2006-10-24 2007-10-23 Aparato y procedimiento para generar una señal de ambiente a partir de una señal de audio, aparato y procedimiento para obtener una señal de audio multi-canal a partir de una señal de audio, y programa de ordenador

Country Status (13)

Country Link
US (1) US8346565B2 (es)
EP (2) EP1997102B1 (es)
JP (1) JP5048777B2 (es)
KR (1) KR101090565B1 (es)
CN (1) CN101536085B (es)
AU (1) AU2007308413B2 (es)
CA (1) CA2664163C (es)
DE (1) DE102006050068B4 (es)
ES (2) ES2391308T3 (es)
HK (2) HK1122391A1 (es)
PL (2) PL1997102T3 (es)
TW (1) TWI352971B (es)
WO (1) WO2008049587A1 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5941610B2 (ja) 2006-12-27 2016-06-29 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute トランスコーディング装置
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
CN101896968A (zh) * 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
EP2212884B1 (en) * 2007-11-06 2013-01-02 Nokia Corporation An encoder
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2359608B1 (en) 2008-12-11 2021-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating a multi-channel audio signal
JP5538425B2 (ja) * 2008-12-23 2014-07-02 コーニンクレッカ フィリップス エヌ ヴェ スピーチ取り込み及びスピーチレンダリング
PL2486654T3 (pl) * 2009-10-09 2017-07-31 Dts, Inc. Adaptacyjna poprawa zakresu dynamiki zapisów dźwiękowych
WO2011060816A1 (en) * 2009-11-18 2011-05-26 Nokia Corporation Data processing
US20120314872A1 (en) * 2010-01-19 2012-12-13 Ee Leng Tan System and method for processing an input signal to produce 3d audio effects
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
WO2011107951A1 (en) * 2010-03-02 2011-09-09 Nokia Corporation Method and apparatus for upmixing a two-channel audio signal
US9219972B2 (en) * 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
EP2544465A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
WO2013093569A1 (en) 2011-12-23 2013-06-27 Nokia Corporation Audio processing for mono signals
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
MY179136A (en) 2013-03-05 2020-10-28 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
EP2976893A4 (en) * 2013-03-20 2016-12-14 Nokia Technologies Oy SPACE AUDIO DEVICE
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10002622B2 (en) * 2013-11-20 2018-06-19 Adobe Systems Incorporated Irregular pattern identification using landmark based convolution
WO2015123658A1 (en) 2014-02-14 2015-08-20 Sonic Blocks, Inc. Modular quick-connect a/v system and methods thereof
RU2671996C2 (ru) * 2014-07-22 2018-11-08 Хуавэй Текнолоджиз Ко., Лтд. Устройство и способ для управления входным аудиосигналом
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9576583B1 (en) * 2014-12-01 2017-02-21 Cedar Audio Ltd Restoring audio signals with mask and latent variables
JP6805416B2 (ja) * 2014-12-03 2020-12-23 エムキューエー リミテッド オーディオ信号に対するマスタリング改善
JP6519959B2 (ja) * 2017-03-22 2019-05-29 カシオ計算機株式会社 操作処理装置、再生装置、操作処理方法およびプログラム
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
JP7311602B2 (ja) 2018-12-07 2023-07-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
CN109597342B (zh) * 2019-01-16 2020-10-20 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
US11579838B2 (en) 2020-11-26 2023-02-14 Verses, Inc. Method for playing audio source using user interaction and a music application using the same
KR102331274B1 (ko) * 2020-11-26 2021-12-01 주식회사 버시스 사용자의 인터랙션을 이용한 오디오 소스 재생 방법 및 이를 이용한 음악 어플리케이션
US11575998B2 (en) 2021-03-09 2023-02-07 Listen and Be Heard LLC Method and system for customized amplification of auditory signals based on switching of tuning profiles
US11432078B1 (en) 2021-03-09 2022-08-30 Listen and Be Heard LLC Method and system for customized amplification of auditory signals providing enhanced karaoke experience for hearing-deficient users

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE467332B (sv) * 1990-06-21 1992-06-29 Ericsson Telefon Ab L M Foerfarande foer effektreglering i ett digitalt mobiltelefonisystem
UA51671C2 (uk) 1995-09-02 2002-12-16 Нью Транзд'Юсез Лімітед Акустичний пристрій
TW411723B (en) * 1996-11-15 2000-11-11 Koninkl Philips Electronics Nv A mono-stereo conversion device, an audio reproduction system using such a device and a mono-stereo conversion method
US6229453B1 (en) * 1998-01-26 2001-05-08 Halliburton Energy Services, Inc. Method to transmit downhole video up standard wireline cable using digital data compression techniques
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
JP3960932B2 (ja) * 2002-03-08 2007-08-15 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
JP2005004119A (ja) * 2003-06-16 2005-01-06 Victor Co Of Japan Ltd 音響信号符号化装置及び音響信号復号化装置
US7738881B2 (en) * 2003-07-22 2010-06-15 Microsoft Corporation Systems for determining the approximate location of a device from ambient signals
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP3916087B2 (ja) * 2004-06-29 2007-05-16 ソニー株式会社 疑似ステレオ化装置
US7876909B2 (en) * 2004-07-13 2011-01-25 Waves Audio Ltd. Efficient filter for artificial ambience
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US20060165247A1 (en) * 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals

Also Published As

Publication number Publication date
DE102006050068B4 (de) 2010-11-11
EP1997102A1 (en) 2008-12-03
CA2664163A1 (en) 2008-05-02
EP2500900A1 (en) 2012-09-19
ES2391308T3 (es) 2012-11-23
KR20090042856A (ko) 2009-04-30
TW200837718A (en) 2008-09-16
CN101536085B (zh) 2012-01-25
WO2008049587A8 (en) 2009-04-09
AU2007308413B2 (en) 2010-08-26
US20100030563A1 (en) 2010-02-04
PL2500900T3 (pl) 2014-08-29
DE102006050068A1 (de) 2008-06-19
CA2664163C (en) 2013-07-16
AU2007308413A1 (en) 2008-05-02
KR101090565B1 (ko) 2011-12-08
WO2008049587A1 (en) 2008-05-02
EP2500900B1 (en) 2014-04-02
CN101536085A (zh) 2009-09-16
HK1122391A1 (en) 2009-05-15
TWI352971B (en) 2011-11-21
JP2010507943A (ja) 2010-03-11
PL1997102T3 (pl) 2012-11-30
EP1997102B1 (en) 2012-07-25
HK1176156A1 (en) 2013-07-19
US8346565B2 (en) 2013-01-01
JP5048777B2 (ja) 2012-10-17

Similar Documents

Publication Publication Date Title
ES2461191T3 (es) Aparato, procedimiento y programa de ordenador para obtener una señal de audio multi-canal a partir de una señal de audio
JP5698189B2 (ja) オーディオ符号化
EP1565036B1 (en) Late reverberation-based synthesis of auditory scenes
KR102159990B1 (ko) 멀티미디어 신호 처리 방법 및 장치
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP5147727B2 (ja) 信号デコーディング方法及び装置
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
ES2956344T3 (es) Descodificador de audio y procedimiento de descodificación
KR20070107698A (ko) 오디오 소스의 파라메트릭 조인트 코딩
Vilkamo Perceptually motivated time-frequency processing of spatial audio
KR20150114874A (ko) 오디오 신호 처리 방법 및 장치
KR102230308B1 (ko) 멀티미디어 신호 처리 방법 및 장치