ES2545220T3 - Un aparato para determinar una señal de audio de multi-canal de salida espacial - Google Patents

Un aparato para determinar una señal de audio de multi-canal de salida espacial Download PDF

Info

Publication number
ES2545220T3
ES2545220T3 ES11187018.4T ES11187018T ES2545220T3 ES 2545220 T3 ES2545220 T3 ES 2545220T3 ES 11187018 T ES11187018 T ES 11187018T ES 2545220 T3 ES2545220 T3 ES 2545220T3
Authority
ES
Spain
Prior art keywords
signal
dirac
stage
decomposed
monosynth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11187018.4T
Other languages
English (en)
Inventor
Sascha Disch
Ville Pulkki
Mikko-Ville Laitinen
Cumhur Erkut
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40121202&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2545220(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2545220T3 publication Critical patent/ES2545220T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato (100) para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada, caracterizado porque comprende: un des-compositor semántico (110) configurado para descomponer la señal de audio de entrada para obtener una primera señal descompuesta con una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad de semántica que es diferente de la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de fondo; un presentador (120) para presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica y para presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica, en donde la primera característica de presentación y la segunda característica de presentación son diferentes entre sí, en donde el presentador (120) comprende una primera etapa de monosynth DirAC (610) para presentar la parte de señal de primer plano, la primera etapa de monosynth DirAC (610) está configurada para crear una primera corriente de mono-DirAC que conduce a una percepción de una fuente semejante a punto cercano, y una segunda etapa de monosynth DirAC (620) para presentar la parte de señal de fondo, la segunda etapa monosynth DirAC (610) está configurada para crear una corriente mono-DirAC que conduce a una percepción de sonido esparcido espacialmente, en donde una corriente mono-DirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y un procesador (130) para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial, en donde el procesador (130) comprende una etapa de fusión DirAC (630) para fusionar la primera corriente mono-DirAC y la segunda corriente mono-DirAC.

Description

E11187018
12-08-2015
Un aparato para determinar una señal de audio de multicanal de salida espacial
DESCRIPCIÓN
5 La presente invención es concerniente con el campo de procesamiento de audio, especialmente procesamiento de propiedades de audio espaciales.
El procesamiento y/o codificación de audio ha avanzado de muchas maneras. Se genera más y más demanda para aplicaciones de audio espaciales. En muchas aplicaciones, el procesamiento de señal de audio es utilizado para
10 descorrelacionar o presentar señales. Tales aplicaciones pueden, por ejemplo llevar a cabo mezcla ascendente de monoaural a estéreo, mezcla ascendente de mono/estéreo a multicanal, reverberación artificial, ensanchamiento estéreo o mezcla/presentación interactiva del usuario.
Para ciertas clases de señales tales como por ejemplo señales semejantes a ruido, por ejemplo señales semejantes
15 a aplauso, métodos y sistemas convencionales sufren ya sea de una calidad perceptual no satisfactoria o si se usa un procedimiento orientado al objeto, alta complejidad computacional debido al número de eventos auditivos a ser modelados o procesados. Otros ejemplos de material de audio, que son problemáticos, son en general material ambiental como, por ejemplo, el ruido que es emitido por una parvada de aves, una costa, caballos galopando, una división de soldados marchando, etc.
20 Los conceptos convencionales usan, por ejemplo, codificación estéreo paramétrica o codificación MPEGsurround (MPEG=grupo de expertos de películas). La Figura 6 muestra una aplicación típica de un descorrelacionador en un mezclador ascendente de monoaural a estéreo. La Figura 6 muestra una señal de entrada monoaural provista a un descorrelacionador 610, que provee una señal de entrada descorrelacionada en su salida. La señal de entrada
25 original es provista a una matriz de mezcla ascendente 620 junto con la señal descorrelacionada. Dependiendo de los parámetros de control de mezcla ascendente 630, una señal de salida estéreo es presentada. El descorrelacionador de señal 610 genera una señal descorrelacionada D alimentada a la etapa de formación de matriz 620 junto con la señal monoaural seca M. Dentro de la matriz de mezcla 620, los canales estéreo L (L = canal estéreo izquierdo) y R (R = canal estéreo derecho) son formados de acuerdo con una matriz de mezcla H. Los
30 coeficientes en la matriz H pueden ser fijos, dependientes de la señal o controlados por el usuario.
Como alternativa, la matriz puede ser controlada mediante información lateral, transmitida junto con la mezcla descendente, que contiene una descripción paramétrica de cómo mezclar ascendentemente las señales de la mezcla descendente para formar la salida de multicanal deseada. Esta información lateral espacial es generada
35 usualmente por un codificador de señal antes del proceso de mezcla ascendente.
Esto se hace comúnmente en codificación de audio espacial paramétrica, por ejemplo, en estéreo paramétrico consúltese J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “HighQuality Parametric Spatial Audio Coding at Low Bitrates” en AES 116th Convention, Berlín, preimpresión 6072, Mayo 2004 y en MPEG Surround, consúltese 40 J. Herre, K. Kjörling, J. Breebaart, et. al., “MPEG Surround the ISO/MPEG Standard for Efficient and Compatible MultiChannel Audio Coding” en Proceedings of the 122nd AES Convention, Viena, Austria, Mayo 2007. Una estructura típica de un descodificador estéreo paramétrico es mostrada en la Figura 7. En este ejemplo, el proceso de descorrelación es efectuado en un dominio de transformada, que es indicado por el banco de filtro de análisis 710, que transforma una señal monoaural de entrada a dominio de transformada, por ejemplo, el dominio de
45 frecuencia en términos de un número de bandas de frecuencia.
En el dominio de frecuencia, el descorrelacionador 720 genera la señal descorrelacionada de conformidad, que va a ser mezclada ascendente en la matriz de mezcla ascendente 730. La matriz de mezcla ascendente 730 considera los parámetros de mezcla ascendente que son provistos por el bloque de modificación de parámetros 740, que es 50 provisto con parámetros de entrada espaciales y acoplado a una etapa de control de parámetros 750. En el ejemplo mostrado en la Figura 7, los parámetros espaciales pueden ser modificados por un usuario o herramientas adicionales tales como por ejemplo postprocesamiento o presentación/proyección binaural. En este caso, los parámetros de mezcla ascendente pueden ser fusionados con los parámetros de los filtros binaurales para formar los parámetros de entrada para la matriz de mezcla ascendente 730. La medición de los parámetros se puede llevar
55 a cabo por el bloque de modificación de parámetros 740. La salida de la matriz de mezcla ascendente 730 es luego provista a un banco de filtros de síntesis 760, que determina la señal de salida estéreo.
Como se describe anteriormente, la salida L/R de la matriz de mezcla H puede ser calculada de la señal de entrada monoaural M y la señal descorrelacionada D, por ejemplo de acuerdo con
60
imagen1
E11187018
12-08-2015
En la matriz de mezcla, la cantidad de sonido descorrelacionado alimentado a la salida puede ser controlada en base a los parámetros transmitidos, por ejemplo ICC (ICC = correlación de intercanal) y/o mezclada o ajustes definidos por el usuario.
5 Otro procedimiento convencional es establecido por el método de permutación temporal. Una propuesta dedicada en la descorrelación de señales semejantes a aplauso se puede encontrar, por ejemplo en Gerard Hotho, Steven van de Par, Jeroen Breebaart, “Multichannel Coding of Applause Signals,” en EURASIP Journal on Advances in Signal Processing, Vol. 1, Art. 10, 2008. Aquí, una señal de audio monofónica es segmentada en segmentos de tiempo
10 solapantes que son permutados temporalmente pseudoaleatoriamente dentro de un “súper”bloque para formar los canales de salida descorrelacionados. Las permutaciones son mutuamente independientes para un número de n canales de salida.
Otro procedimiento es el cambio de canal alternante del original y copia retardada con el fin de obtener una señal 15 descorrelacionada, consúltese con la solicitud de patente alemana 102007018032.455.
En algunos sistemas orientados a objetos conceptuales convencionales, por ejemplo en Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauß, Michael; “Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction” en 116th International EAS Convention, Berlín, 2004, se describe cómo crear una escena inmersiva
20 de muchos objetos, por ejemplo aplausos individuales, mediante la aplicación de una síntesis de campo de onda.
Todavía otro procedimiento es la llamada “codificación de audio direccional” (DirAc = codificación de audio direccional), que es un método para representación de sonido espacial, aplicable para diferentes sistemas de reproducción de sonido, consúltese Pulkki, Ville, “Spatial Sound Reproduction with Directional Audio Coding” en J.
25 Audio Eng. Soc., Vol. 55, Nº 6, 2007. En la parte de análisis, la difusividad y dirección de llegada de sonido son estimados en un solo sitio dependiendo del tiempo y la frecuencia. En la parte de síntesis, las señales del micrófono son divididas primero en partes no difusas y partes difusas y luego son reproducidas utilizando estrategias diferentes.
30 Los procedimientos convencionales tienen una diversidad de desventajas. Por ejemplo, la mezcla ascendente guiada o sin guiar de las señales de audio que tienen contenido tales como aplauso puede requerir una descorrelación fuerte. Consecuentemente, por una parte, la descorrelación fuerte es necesaria para restaurar la sensación ambiental de estar, por ejemplo, en una sala de conciertos. Por otra parte, filtros de descorrelación apropiados, por ejemplo filtros de paso todo, degradan la reproducción de calidad de eventos transitorios, como un
35 solo aplauso al introducir efectos dañinos temporales pre y post ecos y repique de filtro. Además, la toma panorámica espacial de eventos de un solo aplauso se tiene que hacer en una rejilla de tiempo más bien fina, en tanto que la descorrelación ambiental debe ser casi estacionaria con respecto al tiempo.
Los sistemas del estado del arte de acuerdo con J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “High
40 Quality Parametric Spatial Audio Coding at Low Bitrates” en AES 116th Convention, Berlín, preimpresión 6072, Mayo 2004 y J. Herre, K. Kjörling, J. Breebaart, et. al., “MPEG Surround the ISO/MPEG Standard for Efficient and Compatible MultiChannel Audio Coding” en Proceedings of the 122nd AES Convention, Viena, Austria, Mayo 2007 comprometen la resolución temporal contra la estabilidad ambiental y degradación de calidad transitoria contra descorrelación ambiental.
45 Un sistema que utiliza el método de permutación temporal, por ejemplo, exhibirá degradación perceptible del sonido de salida debido a una cierta calidad repetitiva en la señal de audio de salida. Esto es debido al hecho de que uno y el mismo segmento de la señal de entrada aparece sin alterar en cada canal de salida, aunque en un punto en el tiempo diferente. Además, para evitar la densidad de aplauso incrementada, algunos canales originales tienen que
50 ser abandonados en la mezcla ascendente, y así, algunos eventos auditivos importantes se podrían perder en la mezcla ascendente resultante.
En los sistemas orientados a objetos, comúnmente tales eventos de sonido están espaciados como un gran grupo de fuentes semejantes a punto, lo que conduce a una implementación computacionalmente compleja.
55 El documento GB 2 353 193 A desvela un procedimiento de procesamiento de sonido, donde una señal de entrada que contiene una pluralidad de componentes de señal se separa en una pluralidad de componentes de señal separados mediante un separador de señal y cada componente de señal se somete a procesamiento de sonido individual tal como incluyendo análisis espectral, y la pluralidad de componentes de señal separados se emiten
60 como al menos una señal de audio de salida mediante un controlador de salida. La señal de audio de entrada se supone que contiene una mezcla de sonido en el punto del habla y sonido ambiental como en difusión de deportes en directo. El componente de sonido en el punto del habla se extrae en primer lugar. A continuación, el componente de sonido del habla extraído se resta de la señal original para obtener el componente de sonido ambiental.
E11187018
12-08-2015
Es un objeto de la presente invención proveer un concepto mejorado para el procesamiento de audio espacial.
Este objeto es obtenido por un aparato de acuerdo con la reivindicación 1 o un método de acuerdo con la reivindicación 3.
5 Es un hallazgo de la presente invención que una señal de audio puede ser descompuesta en varios componentes a los cuales una presentación espacial, por ejemplo, en términos de una descorrelación o en términos de un procedimiento de toma panorámica de amplitud, pueden ser adaptados. En otras palabras, la presente invención está basada en el descubrimiento de que, por ejemplo, en un escenario con múltiples fuentes de audio, las fuentes
10 de primer plano y el fondo pueden ser distinguidas y presentadas o descorrelacionadas diferentemente. Profundidades y/o extensiones espaciales en general diferentes de objetos de audio pueden ser distinguidos.
Uno de los puntos clave de la presente invención es la descomposición de señales, como el sonido que se origina de una audiencia que aplaude, una parvada de aves, una costa, caballos galopantes, una división de soldados
15 marchando, etc., a una parte delantera y una parte del fondo, mediante lo cual el primer plano contiene eventos auditivos individuales originados de, por ejemplo fuentes cercanas y la parte del fondo contiene el ambiente de eventos lejanos perceptualmente fusionados. Antes de la mezcla final, estas dos partes de señal son procesadas separadamente, por ejemplo, con el fin de sintetizar la correlación, presentar una escena, etc.
20 Las modalidades no están limitadas a distinguir solamente las partes de primer plano y del fondo de la señal, pueden distinguir múltiples partes de audio diferentes, que pueden todas ser presentadas o descorrelacionadas diferentemente.
En general, las señales de audio pueden ser descompuestas en n partes semánticas diferentes mediante 25 modalidades que son procesadas separadamente. La descomposición/procesamiento separado de diferentes componentes semánticos se puede llevar a cabo en el dominio de tiempo y/o frecuencia por las modalidades.
Las modalidades pueden proveer la ventaja de calidad perceptual superior del sonido presentado a un costo computacional moderado. Las modalidades de la presente proveen un nuevo método de descorrelación/proyección
30 que ofrece alta calidad perceptual a costos moderados, especialmente para material de audio crítico semejante a aplauso u otro material ambiental similar, por ejemplo el ruido que es emitido por una parvada de aves, una costa, caballos galopando, una división de soldados marchando, etc.
Modalidades de la presente invención serán detalladas con la ayuda de las figuras adjuntas, en las cuales: 35 La Figura 1a muestra una modalidad de un aparato para determinar una señal de audio de multicanal de audio espacial;
La Figura 1b muestra un diagrama de bloques de otra modalidad; 40 La Figura 2 muestra una modalidad que ilustra una multiplicidad de señales descompuestas;
La Figura 3 ilustra una modalidad con una parte delantera y una descomposición semántica del fondo;
45 La Figura 4 ilustra un ejemplo de un método de separación transitorio para obtener un componente de señal de fondo;
La Figura 5 ilustra una síntesis de fuente de sonido que tienen espacialmente una gran extensión de acuerdo con la invención; 50 La Figura 6 ilustra una aplicación del estado del arte de un descorrelacionador en el dominio de tiempo en un mezclador ascendente de mono a estéreo y
La Figura 7 muestra otra aplicación del estado del arte de un descorrelacionador en el dominio de frecuencia 55 en un escenario de mezclador ascendente de mono a estéreo.
La Figura 1 muestra una modalidad de un aparato 100 para determinar una señal de audio de multicanal de salida espacial en base a una señal de audio de entrada. En algunas modalidades, el aparato puede ser adaptado para basarse adicionalmente en la señal de audio de multicanal de salida espacial en un parámetro de entrada. El
60 parámetro de entrada puede ser generado localmente o provisto con la señal de audio de entrada, por ejemplo como información lateral.
En la modalidad ilustrada en la Figura 1, el aparato 10 comprende un descompositor 110 para descomponer la señal de audio de entrada para obtener una primera señal descompuesta que tiene una primera propiedad
E11187018
12-08-2015
semántica y una segunda señal descompuesta que tiene una segunda propiedad semántica que es diferente de la primera propiedad semántica.
El aparato 100 comprende además un presentador 120 para presentar la primera señal descompuesta utilizando
5 una primera característica de presentación para obtener una primera señal presentada que tiene la primera propiedad semántica y para presentar la segunda señal descompuesta utilizando una segunda característica de presentación para obtener una segunda señal presentada que tiene la segunda propiedad semántica.
Una propiedad semántica puede corresponder a una propiedad espacial, tan cerca o lejos, enfocada o amplia y/o
10 una propiedad dinámica, por ejemplo si una señal es tonal, estacionaria o transitoria y/o una propiedad de dominancia, por ejemplo si la señal es delantera o del fondo, una medida de la misma respectivamente.
Además, en una modalidad, el aparato 100 comprende un procesador 130 para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio de multicanal de salida espacial.
15 En otras palabras, el descompositor 110 está adaptado para descomponer la señal de audio de entrada, en algunas modalidades en base al parámetro de entrada. La descomposición de la señal de audio de entrada es adaptada a propiedades semánticas, por ejemplo espaciales de diferentes partes de la señal de audio de entrada. Además, la presentación llevada a cabo por el presentador 120 de acuerdo con las primeras y segundas características de
20 presentación pueden también ser adaptadas a las propiedades espaciales lo que permite, por ejemplo en un escenario en donde la primera señal descompuesta corresponde a una señal de audio del fondo y la segunda señal descompuesta corresponde a una señal de audio de primer plano, presentación diferente o descorrelacionadores diferentes pueden ser aplicados, de una u otra manera respectivamente. En lo siguiente, el término “primer plano” se entiende que se refiere a un objeto de audio que es dominante en un medio ambiente de audio, de tal manera que
25 un usuario que escucha potencial notaría un objeto de audio de primer plano. Un objeto o fuente de audio de primer plano puede ser distinguido o diferenciado de un objeto o fuente de audio del fondo. Un objeto o fuente de audio de fondo puede no ser notable por un escucha potencial en un medio ambiente de audio por ser menos dominante que un objeto o fuente de audio de primer plano. En algunas modalidades, los objetos o fuentes de audio de primer plano pueden ser pero no están limitados a, una fuente de audio semejante a punto, en donde los objetos o fuentes de
30 audio del fondo pueden corresponder a objetos o fuentes de audio espacialmente más amplios.
En otras palabras, en modalidades la primera característica de presentación puede estar basada en o hacerse coincidir con la primera propiedad semántica y la segunda característica de presentación puede estar basada en o hacerse coincidir con la segunda propiedad semántica. En una modalidad, la primera propiedad semántica y la 35 primera característica de presentación corresponden a una fuente u objeto de audio de primer plano y el presentador 120 puede estar adaptado para aplicar toma panorámica de amplitud a la primera señal descompuesta. El presentador 120 puede luego ser adaptado adicionalmente para proveer como la primera señal presentada dos versiones de toma panorámica de amplitud de la primera señal descompuesta. En esta modalidad, la segunda propiedad semántica y la segunda característica de presentación corresponden a un objeto o fuente de audio del
40 fondo, una pluralidad de los mismos respectivamente y el presentador 120 puede ser adaptado para aplicar una descorrelación a la segunda señal descompuesta y proveer como segunda señal presentada la segunda señal descompuesta y la versión descorrelacionada de la misma.
En modalidades, el presentador 120 puede ser adaptado adicionalmente para presentar la primera señal
45 descompuesta de tal manera que la primera característica de presentación no tiene una característica que introduce retardo. En otras palabras, puede no haber ninguna descorrelación de la primera señal descompuesta. En otra modalidad, la primera característica de presentación puede tener una característica que introduce retardo que tiene una primera cantidad de retardo y la segunda característica de presentación puede tener una segunda cantidad de retardo, la segunda cantidad de retardo es mayor que la primera cantidad de retardo. En otras palabras, en esta
50 modalidad, tanto la primera señal descompuesta como la segunda señal descompuesta pueden ser descorrelacionadas, sin embargo, el nivel de descorrelación se puede escalar con la cantidad de retardo introducido a las versiones descorrelacionadas respectivas de las señales descompuestas. La descorrelación puede por consiguiente ser más fuerte para la segunda señal descompuesta que para la primera señal descompuesta.
55 En modalidades, la primera señal descompuesta y la segunda señal descompuesta se pueden solapar y/o pueden ser sincronizadas en el tiempo. En otras palabras, el procesamiento de señal se puede llevar a cabo por bloques, en donde un bloque de muestras de señal de audio de entrada puede ser subdividido por el descompositor 110 en un número de bloques de señales descompuestas. En modalidades, el número de señales descompuestas se puede por lo menos parcialmente solapar en el dominio del tiempo, esto es, pueden representar muestras de dominio de
60 tiempo solapantes. En otras palabras, las señales descompuestas pueden corresponder a partes de la señal de audio de entrada que se superponen o solapan, esto es, que representan señales de audio por lo menos parcialmente simultáneas. En modalidades, las primeras y segundas señales descompuestas pueden representar versiones filtradas o transformadas de una señal de entrada original. Por ejemplo, pueden representar partes de señal que son extraídas de una señal espacial compuesta correspondiente por ejemplo a una fuente de sonido
E11187018
12-08-2015
cercana o una fuente de sonido más distante. En otras modalidades, pueden corresponder a componentes de señal transitorios y estacionarios, etc.
En modalidades, el presentador 120 puede ser subdividido en un primer presentador y un segundo presentador, en
5 donde el primer presentador puede ser adaptado para presentar la primera señal descompuesta y el segundo presentador puede ser adaptado para presentar la segunda señal descompuesta. En modalidades, el presentador 120 puede ser implementado en elementos de programación, por ejemplo como un programa almacenado en una memoria a ejecutarse en un procesador o un procesador de señales digitales que a su vez, es adaptado para presentar las señales descompuestas secuencialmente.
10 El presentador 120 puede estar adaptado para descorrelacionar la primera señal descompuesta para obtener una primera señal descorrelacionada y/o para descorrelacionar la segunda señal descompuesta para obtener una segunda señal descorrelacionada. En otras palabras, el presentador 120 puede ser adaptado para descorrelacionar tanto señales descompuestas, sin embargo, utilizando diferentes características de descorrelación o
15 presentación. En algunas modalidades, el presentador 120 puede ser adaptado para aplicar toma panorámica de amplitud ya sea a una u otra de las primeras o segundas señales descompuestas en lugar de esto o además de la descorrelación.
El presentador 120 puede ser adaptado para presentar las primeras y segundas señales presentadas cada una que
20 tienen tantos componentes como canales en la señal de audio de multicanal de salida espacial y el procesador 130 puede estar adaptado para combinar los componentes de las primeras y segundas señales presentadas para obtener la señal de audio de multicanal de salida espacial. En otras modalidades, el presentador 120 puede ser adaptado para presentar las primeras y segundas señales presentadas cada una que tiene menos componentes que la señal de audio de multicanal de salida espacial y en donde el procesador 130 puede ser adaptado para mezclar
25 ascendentemente los componentes de las primeras y segundas señales presentadas para obtener la señal de audio de multicanal de salida espacial.
La Figura 1b muestra otra modalidad de un aparato 100 que comprende componentes similares como fueron presentados con la ayuda de la Figura 1a. Sin embargo, la Figura 1b muestra una modalidad que tiene más detalles. 30 La Figura 1b muestra un descompositor 110 que recibe la señal de audio de entrada y opcionalmente el parámetro de entrada. Como se puede ver en la Figura 1b, el descompositor está adaptado para proveer una primera señal descompuesta y una segunda señal descompuesta a un presentador 120, que es indicado por las líneas discontinuas. En la modalidad mostrada en la Figura 1b, se supone que la primera señal descompuesta corresponde a una fuente de audio semejante a punto como la primera propiedad semántica y que el presentador 120 está
35 adaptado para aplicar toma panorámica de amplitud como la primera característica de presentación a la primera señal descompuesta. En modalidades, las primeras y segundas señales descompuestas son intercambiables, esto es, en otras modalidades la toma panorámica de amplitud puede ser aplicada a la segunda señal descompuesta.
En la modalidad ilustrada en la Figura 1b, el presentador 120 muestra, en la trayectoria de señal de la primera señal
40 descompuesta, dos amplificadores escalables 121 y 122, que están adaptados para amplificar dos copias de la primera señal descompuesta diferentemente. Los factores de amplificación diferentes usados pueden ser determinados, en modalidades, a partir del parámetro de entrada, en otras modalidades, pueden ser determinados a partir de la señal de audio de entrada, pueden ser preestablecidos o pueden ser generados localmente, posiblemente también refiriéndose a una entrada de usuario. Las salidas de los dos amplificadores escalables 121 y
45 122 son provistas al procesador 130, para el cual detalles serán provistos posteriormente en la presente.
Como se puede ver de la Figura 1b, el descompositor 110 provee una segunda señal descompuesta al presentador 120, que lleva a cabo una presentación diferente en la trayectoria de procesamiento de la segunda señal descompuesta. En otras modalidades, la primera señal descompuesta puede ser procesada en la trayectoria
50 actualmente descrita también o en lugar de la segunda señal descompuesta. Las primeras y segundas señales descompuestas pueden ser intercambiadas en modalidades.
En la modalidad ilustrada en la Figura 1b, en la trayectoria de procesamiento de la segunda señal descompuesta, hay un descorrelacionador 123 seguido por un rotador o módulo estéreo paramétrico o módulo de mezcla 55 ascendente 124 como segunda característica de presentación. El descorrelacionador 123 puede ser adaptado para descorrelacionar la segunda señal descompuesta X[k] y para proveer una versión descorrelacionada Q[k] de la segunda señal descompuesta al módulo estéreo paramétrico o mezcla de mezcla ascendente 124. En la Figura 1b, la señal mono X[k] es alimentada a la unidad de descorrelacionador “D” 123 también como el módulo de mezcla ascendente 124. La unidad de descorrelacionador 123 puede crear la versión descorrelacionada Q[k] de la señal
60 de entrada, que tiene las mismas características de frecuencia y la misma energía a largo plazo. El módulo de mezcla ascendente 124 puede calcular una matriz de mezcla ascendente en base a los parámetros espaciales y sintetizar los canales de salida Y1[k] y Y2[k]. El módulo de mezcla ascendente puede ser explicado de acuerdo con:
E11187018
12-08-2015
imagen2
con los parámetros cl, cr, α y β que son constantes o valores variantes en tiempo o variantes en frecuencia estimados a partir de la señal de entrada X[k] adaptablemente o transmitidos como información lateral junto con la
5 señal de entrada X[k] en forma de por ejemplo, parámetro de ILD (ILD = diferencia de nivel de intercanal) y parámetros de ICC (ICC = correlación de intercanal). La señal X[k] es la señal monoaural recibida, la señal Q[k] es la señal descorrelacionada, que es una versión descorrelacionada de la señal de entrada X[k]. Las señales diferidas son denotadas por Y1[k] y Y2[k].
10 El descorrelacionar 123 puede ser implementado como un filtro de IIR (IIR = respuesta de impulso infinito), un filtro de FIR arbitrario (FIR = respuesta de impulso finita) o un filtro de FIR especial utilizando una sola derivación para retardar simplemente la señal.
Los parámetros cl, cr, α y β pueden ser determinados de maneras diferentes. En algunas modalidades, son
15 simplemente determinados mediante parámetros de entrada, que pueden ser provistos junto con la señal de audio de entrada, por ejemplo con los datos de mezcla descendente como información lateral. En otras modalidades, pueden ser generados localmente o derivados de propiedades de la señal de audio de entrada.
En la modalidad mostrada en la Figura 1b, el presentador 120 es adaptado para proveer la segunda señal
20 presentada en términos de las dos señales de salida Y1[k] y Y2[k] del módulo de mezcla ascendente 124 al procesador 130.
De acuerdo con la trayectoria de procesamiento de la primera señal descompuesta, las dos versiones de toma panorámica de amplitud de la primera señal descompuesta, disponibles de las salidas de los dos amplificadores
25 escalables 121 y 122 son también provistas al procesador 130. En otras modalidades, los amplificadores escalables 121 y 122 pueden estar presentes en el procesador 130, en donde solamente la primera señal descompuesta y un factor de toma panorámica pueden ser provistos por el presentador 120.
Como se puede ver en la Figura 1b, el procesador 130 puede ser adaptado para procesar o combinar la primera
30 señal presentada y la segunda señal presentada, en esta modalidad simplemente al combinar las salidas con el fin de proveer una señal estéreo que tiene un canal izquierdo L y un canal derecho R correspondiente a la señal de audio de multicanal de salida espacial de la Figura 1a.
En la modalidad de la Figura 1b, en ambas trayectorias de señalización, los canales izquierdo y derecho para una
35 señal estéreo son determinados. En la trayectoria de la primera señal descompuesta, se lleva a cabo la toma panorámica de amplitud por los dos amplificadores escalables 121 y 122, por consiguiente, los dos componentes dan como resultado dos señales de audio en fase, que son escalables diferentemente. Esto corresponde a una impresión de una fuente de audio semejante a punto como una propiedad semántica o característica de presentación.
40 En la trayectoria de procesamiento de señal de la segunda señal descompuesta, las señales de salida Y1[k] e Y2[k] son provistas al procesador 130 correspondientes a canales izquierdo y derecho como se determina por el módulo de mezcla ascendente 124. Los parámetros cl, cr, α y β determinan la amplitud espacial de la fuente de audio correspondiente. En otras palabras, los parámetros cl, cr, α y β pueden ser escogidos de una manera o intervalo de
45 tal manera que para los canales L y R cualquier correlación entre una correlación máxima y una correlación mínima puede ser obtenida en la segunda trayectoria de procesamiento de señal como segunda característica de presentación. Además, esto se puede llevar a cabo independientemente para bandas de frecuencia diferentes. En otras palabras, los parámetros cl, cr, α y β pueden ser escogidos de una manera o intervalo de tal manera que los canales L y R están en fase, modelando una fuente de audio semejante a punto como propiedad semántica.
50 Los parámetros cl, cr, α y β pueden también ser escogidos de una manera o intervalo de tal manera que los canales L y R en la segunda trayectoria de procesamiento de señal son descorrelacionados, modelando una fuente de audio más bien distribuida espacialmente como propiedad semántica, por ejemplo, modelado de una fuente de audio de fondo o espacialmente más amplia.
55 La Figura 2 ilustra otra modalidad que es más general. La Figura 2 muestra un bloque de descomposición semántica 210, que corresponde al descompositor 110. La salida de la descomposición semántica 210 es la entrada de una etapa de presentación 220, que corresponde al presentador 120. La etapa de presentación 220 está compuesta de un número de presentadores individuales 221 a 22n, esto es, la etapa de descomposición semántica 210 está
60 adaptada para descomposición de una señal de entrada mono/estéreo a n señales descompuestas, que tienen n propiedades semánticas. La descomposición se puede llevar a cabo en base a parámetros que controlan la
E11187018
12-08-2015
5
10
15
20
25
30
35
40
45
50
55
60
descomposición, que pueden ser provistos junto con la señal de entrada mono/estéreo, ser preestablecidos, ser generados localmente o ser introducidos por un usuario, etc.
En otras palabras, el descompositor 110 puede ser adaptado para descomponer la señal de audio de entrada semánticamente en base al parámetro de entrada opcional y/o para determinar el parámetro de entrada a partir de la señal de audio de entrada.
La salida de la etapa de descorrelación o presentación 220 es luego provista a un bloque de mezcla ascendente 230, que determina una salida de multicanal en base a las señales descorrelacionadas o presentadas y opcionalmente basadas en parámetros controlados por la mezcla ascendente.
En general, las modalidades pueden separar el material de sonido en n componentes semánticos diferentes y descorrelacionar cada componente separadamente con un descorrelacionador coincidente, que también son marcados D1 a Dn en la Figura 2. En otras palabras, en modalidades, las características de presentación se pueden hacer coincidir con las propiedades semánticas de las señales descompuestas. Cada uno de los descorrelacionadores o presentadores pueden ser adaptados a las propiedades semánticas del componente de señal descompuesta de conformidad. Subsecuentemente, los componentes procesados pueden ser mezclados para obtener la señal de multicanal de salida. Los diferentes componentes podrían corresponder por ejemplo a objetos de modelado de primer plano y de fondo.
En otras palabras, el presentador 110 puede ser adaptado para combinar la primera señal descompuesta y la primera señal descorrelacionada para obtener la señal de mezcla ascendente estéreo o de multicanal como la primera señal presentada y/o combinar la segunda señal descompuesta y la segunda señal descorrelacionada para obtener una señal de mezcla ascendente estéreo como la segunda señal presentada.
Además, el presentador 120 puede ser adaptado para presentar la primera señal descompuesta de acuerdo con una característica de audio de fondo y/o para presentar la segunda señal descompuesta de acuerdo con una característica de audio de primer plano o viceversa.
Puesto que, por ejemplo, las señales semejantes a aplauso pueden ser vistas como compuestas de aplausos individuales casi distintos y un ambiente semejante a ruido que se origina de aplausos lejanos muy densos, una descomposición apropiada de tales señales puede ser obtenida al distinguir entre eventos de aplausos de primer plano aislados como un componente y el fondo semejante a ruido como el otro componente. En otras palabras, en una modalidad, n = 2. En tal modalidad, por ejemplo, el presentador 120 puede ser adaptado para presentar la primera señal descompuesta mediante toma panorámica de amplitud de la primera señal descompuesta. En otras palabras, la correlación o presentación del componente de aplauso de primer plano puede en algunas modalidades ser obtenida en D1 mediante toma panorámica de amplitud de cada evento individual a su sitio original estimado.
En modalidades, el presentador 120 puede ser adaptado para presentar la primera y/o segunda señal descompuesta por ejemplo, mediante filtración de paso todo de la primera o segunda señal descompuesta para obtener la primera
o segunda señal descorrelacionada.
En otras palabras, en modalidades, el fondo puede ser descorrelacionado o presentado mediante el uso de m filtros de paso todo mutuamente independientes D21�m. En modalidades, solamente el fondo casi estacionario puede ser procesado por los filtros de paso todo, los efectos de borrosidad temporal de los métodos de descorrelación del estado del arte pueden ser evitados de esta manera. Ya que la toma panorámica de amplitud puede ser aplicada a los eventos del objeto de primer plano, la densidad de aplauso de primer plano original puede aproximadamente ser restaurada en contraposición al sistema del estado del arte tal como por ejemplo presentado en el párrafo J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “HighQuality Parametric Spatial Audio Coding at Low Bitrates” en AES 116th Convention, Berlín, preimpresión 6072, Mayo 2004 y J. Herre, K. Kjörling, J. Breebaart, et. al., “MPEG Surround the ISO/MPEG Standard for Efficient and Compatible MultiChannel Audio Coding” en Proceedings of the 122nd AES Convention, Viena, Austria, Mayo 2007.
En otras palabras, en modalidades, el descompositor 110 puede ser adaptado para descomponer la señal de audio de entrada semánticamente en base al parámetro de entrada, en donde el parámetro de entrada puede ser provisto junto con la señal de audio de entrada, por ejemplo una información lateral. En tal modalidad, el descompositor 110 puede ser adaptado para determinar el parámetro de entrada a partir de la señal de audio de entrada. En otras modalidades, el descompositor 110 puede ser adaptado para determinar el parámetro de entrada como un parámetro de control independiente de la señal de audio de entrada, lo que puede ser generado localmente, preestablecido o puede también ser introducido por un usuario.
En modalidades, el presentador 120 puede ser adaptado para obtener una distribución espacial de la primera señal presentada o la segunda señal presentada al aplicar una toma panorámica de amplitud de banda amplia. En otras palabras, de acuerdo con la descripción de la Figura 1b anterior, en lugar de generar una fuente semejante a punto,
E11187018
12-08-2015
5
10
15
20
25
30
35
40
45
50
55
60
la ubicación de toma panorámica de la fuente puede ser variada temporalmente con el fin de generar una fuente de audio que tiene una cierta distribución espacial. En modalidades, el presentador 120 puede ser adaptado para aplicar el ruido de paso bajo generado localmente para la toma panorámica de amplitud, esto es, los factores de escalamiento para la toma panorámica de amplitud para, por ejemplo los amplificadores escalables 121 y 122 en la Figura 1b corresponden a un valor de ruido generado localmente, esto es son variables en el tiempo con un cierto ancho de banda.
Las modalidades pueden ser adaptadas para ponerse en operación en un modo guiado o en un modo sin guiar. Por ejemplo, en un escenario guiado, refiriéndose a las líneas discontinuas, por ejemplo en la Figura 2, la descorrelación puede ser llevada a cabo mediante la aplicación de filtros de descorrelación de tecnología estándar controlados en una rejilla de tiempo burda para por ejemplo, la parte de fondo o parte ambiental solamente y obtener la correlación mediante la redistribución de cada evento individual en por ejemplo, la parte del primer plano vía posicionamiento espacial variable en el tiempo utilizando toma panorámica de amplitud de banda amplia en una rejilla de tiempo mucho más fina. En otras palabras, en modalidades, el presentador 120 puede ser adaptado para poner en operación descorrelacionadores para diferentes señales descompuestas en diferentes rejillas de tiempo, por ejemplo basadas en escalas de tiempo diferentes, que pueden estar en términos de velocidades de muestras diferentes o diferente retardo para los respectivos descorrelacionadores. En una modalidad, al llevar a cabo la separación de primer plano y de fondo, la parte del primer plano puede usar toma panorámica de amplitud, en donde la amplitud es cambiada en una rejilla de tiempo mucho más fina que la operación para un descorrelacionador con respecto a la parte de fondo.
Además, se enfatiza que para la descorrelación de, por ejemplo señales semejantes a aplauso, esto es señales con calidad aleatoria casi estacionaria, la posición espacial exacta de cada aplauso de primer plano individual puede no ser tanto de importancia crucial, más bien la recuperación de la distribución global de la multitud de eventos de aplauso. Modalidades pueden tomar ventaja de este hecho y pueden operar en un modo sin guía. En tal modo, el factor de toma panorámica de amplitud mencionada anteriormente podría ser controlado mediante el ruido de paso bajo. La Figura 3 ilustra un sistema mono a estéreo que implementa el escenario. La Figura 3 muestra un bloque de descomposición semántico 310 correspondiente al descompositor 110 para descomponer la señal de entrada mono a una parte de señal descompuesta de primer plano y de fondo.
Como se puede ver de la Figura 3, la parte descompuesta de fondo de la señal es presentada por el D1 320 de paso todo. Luego, la señal descorrelacionada es provista junto con la parte descompuesta de fondo sin presentar a la mezcla ascendente 330, correspondiente al procesador 130. La parte de señal descompuesta de primer plano es provista a una etapa D2 de toma panorámica de amplitud 340, que corresponde al presentador 120. El ruido de paso bajo generado localmente 350 es también provisto a la etapa de toma panorámica de amplitud 340, que puede luego proveer la señal descompuesta de primer plano en una configuración de toma panorámica de amplitud a la mezcla ascendente 330. La etapa de toma panorámica de amplitud D2 340 puede determinar su salida al proveer un factor de escalamiento k para una selección de amplitud entre dos de un conjunto estéreo de canales de audio. El factor de escalamiento k puede estar basado en el ruido de paso bajo.
Como se puede ver de la Figura 3, hay solamente una flecha entre la toma panorámica de amplitud 340 y la mezcla ascendente 330. Esta flecha puede también representar señales de toma panorámica de amplitud, esto es, en el caso de mezcla ascendente estéreo, ya el canal izquierdo y el canal derecho. Como se puede ver en la Figura 3, la mezcla ascendente 330 correspondiente al procesador 130 es luego adaptada para procesar o combinar las señales descompuestas de fondo o primer plano para derivar la salida estéreo.
Otras modalidades pueden usar procesamiento natural con el fin de derivar señales descompuestas de fondo y de primer plano o parámetros de entrada para descomposición. El descompositor 110 puede ser adaptado para determinar la primera señal descompuesta y/o la segunda señal descompuesta en base a un método de separación transitorio. En otras palabras, el descompositor 110 puede ser adaptado para determinar la primera o segunda señal descompuesta en base a un método de separación y la otra señal descompuesta en base a la diferencia entre la primera señal descompuesta determinada y la señal de audio de entrada. En otras modalidades, la primera o segunda señal descompuesta puede ser determinada en base al método de separación transitorio y la otra señal descompuesta puede estar basada en la diferencia entre la primera o segunda señal descompuesta y la señal de audio de entrada.
El descompositor 110 y/o el presentador 120 y/o el procesador 130 pueden comprender una etapa de monosynth DirAC y/o una etapa de síntesis DirAC y/o una etapa de función de DirAC. En modalidades, el descompositor 110 puede ser adaptado para descomponer la señal de audio de entrada, el presentador 120 puede ser adaptado para presentar la primera y/o segunda señales descompuestas y/o el procesador 130 puede ser adaptado para procesar la primera y/o segunda señales presentadas en términos de diferentes bandas de frecuencia.
Modalidades pueden usar la siguiente aproximación para las señales semejantes a aplauso. En tanto que los componentes de primer plano pueden ser obtenidos mediante métodos de detección o separación transitorios,
E11187018
12-08-2015
consúltese Pulkki, Ville; “Spatial Sound Reproduction with Directional Audio Coding” en J. Audio Eng. Soc., Vol. 55, Nº 6, 2007, el componente de fondo puede ser dado por la señal residual. La Figura 4 ilustra un ejemplo en donde un método apropiado para obtener un componente de fondo x’(n) de, por ejemplo, una señal semejante a aplauso x(n) para implementar la descomposición semántica 310 en la Figura 3, esto es, una modalidad del descompositor
5 120. La Figura 4 muestra una señal de entrada discreta en el tiempo x(n), que es introducida a una DFT 410 (DFT = transformada de Fourier discreta). La salida del bloque de DFT 410 es provista a un bloque para el alisamiento del espectro 420 y a un bloque de blanqueo espectral 430 para el blanqueo espectral en base a la salida de la DFT 410 y la salida de la etapa de espectro liso 430.
10 La salida de la etapa de blanqueo espectral 430 es luego provista a una etapa de proyección de pico espectral 440, que separa el espectro y provee dos salidas, esto es, un ruido y señal residual transitoria y una señal tonal. El ruido y señal residual transitoria es provista a un filtro de LPC 450 (LPC = codificación de predicción lineal) de los cuales la señal de ruido residual es provista a la etapa de mezcla 460 junto con la señal tonal como salida de la etapa de proyección de pico espectral 440. La salida de la etapa de mezcla 460 es luego provista a una etapa de formación
15 espectral 470 que forma el espectro en base al espectro alisado provisto por la etapa de espectro alisado 420. La salida de la etapa de formación espectral 470 es luego provista al filtro de síntesis 480, esto es, una transformada de Fourier discreta inversa con el fin de obtener x’(n) que representa el componente de fondo. El componente de primer plano puede luego ser derivado como la diferencia entre la señal de entrada y la señal de salida, esto es, x(n)x’(n).
20 Modalidades de la presente invención se pueden poner en operación en aplicaciones de realidad virtual tales como por ejemplo juegos en 3D. En tales aplicaciones, la síntesis de fuentes de ruido con una gran extensión espacial puede ser complicada y compleja cuando está basada en conceptos convencionales. Tales fuentes podrían ser, por ejemplo una costa, una parvada de aves, caballos galopando, la división de soldados marchando o una audiencia que aplaude. Comúnmente, tales eventos de sonido son espaciados como un gran grupo de fuentes semejantes a
25 punto, lo que conduce a implementaciones computacionalmente complejas consúltese Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauß, Michael; “Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction” en 116th International EAS Convention, Berlín, 2004.
Las modalidades pueden llevar a cabo un método que efectúa la síntesis de la extensión de fuentes de sonido
30 plausiblemente pero al mismo tiempo, que tienen complejidad estructural y computacional más baja. Las modalidades pueden estar basadas en DirAC (DirAC = codificación de audio direccional), consúltese Pulkki, Ville; “Spatial Sound Reproduction with Directional Audio Coding” en J. Audio Eng. Soc., Vol. 55, Nº 6, 2007. En otras palabras, en modalidades, el descompositor 110 y/o el presentador 120 y/o el procesador 130 pueden ser adaptados para procesar señales de DirAC. En otras palabras, el descompositor 110 puede comprender etapas de
35 monosynth DirAC, el presentador 120 puede comprender una etapa de síntesis de DirAC y/o el procesador puede comprender una etapa de fusión de DirAC.
La presente invención está basada en procesamiento de DirAC, por ejemplo, utilizando solamente dos estructuras de síntesis, por ejemplo, una para fuentes de sonido de primer plano y una para fuentes de sonido de fondo. El
40 sonido de primer plano puede ser aplicado a una sola corriente de DirAC con datos direccionales controlados, dando como resultado la percepción de fuentes semejantes a punto cercanas. El sonido de fondo puede también ser producido al usar una sola corriente directa con datos direccionales controlados diferentemente, lo que conduce a la percepción de objetos de sonido esparcidos espacialmente. Luego las dos corrientes de DirAC pueden ser fusionadas y descodificadas para el voltaje de altavoz arbitrario o para audífonos, por ejemplo.
45 La Figura 5 ilustra una síntesis de fuentes de sonido que tienen una extensión espacialmente grande. La Figura 5 muestra un bloque de monosynth superior 610, que crea una corriente de monoDirAC que conduce a una percepción de una fuente de sonido semejante a punto cercano, tales como los aplaudidores más cercanos de una audiencia. El bloque de monosynth inferior 620 es usado para crear una corriente de monoDirAC que conduce a la
50 percepción de sonido esparcido espacialmente que es por ejemplo para generar sonido de fondo como el sonido de aplauso de la audiencia. Las salidas de los dos bloques de monosynth DirAC 610 y 620 son luego fusionadas en la etapa de fusión de DirAC 630. La Figura 5 muestra que solamente dos bloques de síntesis de DirAC 610 y 620 son usados en esta modalidad. Uno de ellos es usado para crear los eventos de sonido, que están en el primer plano, tales como las aves más cercanas o personas más cercanas en una audiencia que aplaude y el otro genera un
55 sonido de fondo, el sonido de la parvada de aves continuo, etc.
El sonido de primer plano es convertido a una corriente de monoDirAC con el bloque de DirACmonosynth 610 de una manera que los datos de azimuth se mantienen constantes con la frecuencia, sin embargo, cambiados aleatoriamente o controlados por un proceso en el tiempo externo. El parámetro de difusividad Ψ es ajustado a 0, 60 esto es, que representa una fuente semejante a punto. La entrada de audio al bloque 610 se supone que es consiste de sonidos no solapantes temporalmente, tales como llamadas de aves distintas o aplausos de mano, lo que genera la percepción de fuentes de sonido cercanas, tales como aves o personas que aplauden. La extensión espacial de los eventos de sonido de primer plano es controlada al ajustar el θ y θintervalobajo primer plano, lo que significa que eventos de sonido individuales serán percibidos en las direcciones θ±θintervalobajo primer plano, sin embargo, un solo evento puede
E11187018
12-08-2015
ser percibido semejante a punto. En otras palabras, fuentes de sonido semejantes a punto son generadas en donde las posiciones posibles del punto están limitadas al intervalo θ±θintervaloprimer plano.
El bloque de fondo 620 toma como corriente de audio de entrada, una señal, que contiene todos los otros eventos
5 de sonido no presentes en la corriente de audio de primer plano, que pretende incluir lotes de eventos de sonido temporalmente solapantes, por ejemplo cientos de aves o un número mayor de aplaudidores lejanos. Los valores de azimuth anexados son luego ajustados aleatoriamente tanto en tiempo como frecuencia, dentro de valores de azimuth de restricción dados θ±θintervalofondo. La extensión espacial de los sonidos de fondo puede así ser sintetizada con baja complejidad computacional. La difusividad Ψ puede también ser controlada. Si fuera agregado, el
10 descodificador de DirAC aplicaría el sonido a todas direcciones, lo que puede ser usado cuando la fuente de sonido rodea al usuario que escucha totalmente. Si no lo rodea, la difusividad puede ser mantenida baja o cercana a cero o cero en algunas modalidades.
Las modalidades de la presente invención pueden proveer la ventaja de que calidad perceptual superior de los
15 sonidos presentados puede ser obtenida a un costo computacional moderado. Las modalidades pueden permitir una implementación modular de presentación de sonido espacial como por ejemplo se muestra en la Figura 5.
Una modalidad comprende un aparato 100 para determinar una señal de audio multicanal de salida espacial en base a una señal de audio de entrada, que comprende: un descompositor 110 para descomponer la señal de audio de 20 entrada para obtener una primera señal descompuesta que tiene una primera propiedad semántica y una segunda señal descompuesta que tiene una segunda propiedad semántica que es diferente de la primera propiedad semántica; un presentador 120 para presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada que tiene la primera propiedad semántica y para presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda
25 señal presentada que tiene la segunda propiedad semántica, en donde la primera característica de presentación y la segunda característica de presentación son diferentes entre sí; y un procesador 130 para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial.
En una modalidad preferida adicional del aparato 100 la primera característica de presentación está basada en la
30 primera propiedad semántica y la segunda característica de presentación está basada en la segunda propiedad semántica.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera señal descompuesta de manera que la primera característica de presentación no tiene una característica que
35 introduce retardo o de manera que la primera característica de presentación tiene una característica que introduce retardo que tiene una primera cantidad de retardo y en donde la segunda característica de presentación tiene una segunda cantidad de retardo, siendo la segunda cantidad de retardo mayor que la primera cantidad de retardo.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera
40 señal descompuesta mediante toma panorámica de amplitud como la primera característica de presentación y para descorrelacionar la segunda señal descompuesta para obtener una segunda señal descorrelacionada como la segunda característica de presentación.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera y
45 segunda señales presentadas teniendo cada una tantos componentes como canales en la señal de audio multicanal de salida espacial y el procesador 130 está adaptado para combinar los componentes de la primera y segunda señales presentadas para obtener la señal de audio multicanal de salida espacial.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera y
50 segunda señales presentadas teniendo cada una menos componentes que la señal de audio multicanal de salida espacial y en donde el procesador 130 está adaptado para mezclar ascendentemente los componentes de la primera y segunda señales presentadas para obtener la señal de audio multicanal de salida espacial.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera
55 señal descompuesta de acuerdo con una característica de audio de primer plano como la primera característica de presentación y para presentar la segunda señal descompuesta de acuerdo con una característica de audio de fondo como la segunda característica de presentación.
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la segunda
60 señal descompuesta mediante filtración de paso todo de la segunda señal para obtener la segunda señal descorrelacionada.
En una modalidad preferida adicional del aparato 100, el descompositor 110 está adaptado para determinar un parámetro de entrada como un parámetro de control desde la señal de audio de entrada.
E11187018
12-08-2015
En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para obtener una distribución espacial de la primera o segunda señales presentadas aplicando una toma panorámica de amplitud de banda amplia.
5 En una modalidad preferida adicional del aparato 100, el presentador 120 está adaptado para presentar la primera señal descompuesta y la segunda señal descompuesta en base a diferentes rejillas de tiempo.
En una modalidad preferida adicional del aparato 100, el descompositor 110 está adaptado para determinar la 10 primera señal descompuesta y/o la segunda señal descompuesta en base a un método de separación transitorio.
En una modalidad preferida adicional del aparato 100, el descompositor 110 está adaptado para determinar una de las primeras señales descompuestas o la segunda señal descompuesta mediante un método de separación transitorio y la otra en base a la diferencia entre la una y la señal de audio de entrada.
15 En una modalidad preferida adicional del aparato 100, el descompositor 110 y/o el presentador 120 y/o el procesador 130 comprenden una etapa monosynth DirAC y/o una etapa de síntesis de DirAC y/o una etapa de fusión de DirAC.
20 En una modalidad preferida adicional del aparato 100, el descompositor 110 está adaptado para descomponer la señal de audio de entrada, el presentador 120 está adaptado para presentar la primera y/o segundas señales descompuestas y/o el procesador 130 está adaptado para procesar la primera y/o segundas señales presentadas en términos de diferentes bandas de frecuencia.
25 Una modalidad adicional se refiere a un método para determinar una señal de audio multicanal de salida espacial en base a una señal de audio de entrada y un parámetro de entrada que comprende las etapas de: descomponer la señal de audio de entrada para obtener una primera señal descompuesta que tiene una primera propiedad semántica y una segunda señal descompuesta que tiene una segunda propiedad semántica que es diferente de la primera propiedad semántica; presentar la primera señal descompuesta usando una primera característica de
30 presentación para obtener una primera señal presentada que tiene la primera propiedad semántica; presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada que tiene la segunda propiedad semántica, en donde la primera característica de presentación y la segunda característica son diferentes entre sí; y procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial.
35 Una modalidad adicional se refiere a un programa informático que tiene un código de programa para realizar el método anterior cuando el código de programa se ejecuta en una computadora o en un procesador.
Dependiendo de ciertos requerimientos de implementación de los métodos de la invención, los métodos de la
40 invención pueden ser implementados en elementos físicos o elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital y particularmente, una memoria flash, un disco, un DVD
o un CD que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que cooperan con el sistema de computadora programable, de tal manera que los métodos de la invención son efectuados. En general, la presente invención es por consiguiente un producto de programas de computadora con códigos de
45 programa almacenados en un portador que se puede leer por la máquina, los códigos de programa son operativos para efectuar los métodos de la invención cuando el producto de programas de computadora se ejecuta en una computadora. En otras palabras, los métodos de la invención son por consiguiente un programa de computadora que tiene códigos de programa para efectuar por lo menos uno de los métodos de la invención cuando el programa de computadora se ejecuta en una computadora.
50

Claims (5)

  1. REIVINDICACIONES
    1. Un aparato (100) para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada, caracterizado porque comprende:
    5 un descompositor semántico (110) configurado para descomponer la señal de audio de entrada para obtener una primera señal descompuesta con una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad de semántica que es diferente de la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de
    10 fondo; un presentador (120) para presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica y para presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica, en donde la primera característica de presentación y la
    15 segunda característica de presentación son diferentes entre sí, en donde el presentador (120) comprende una primera etapa de monosynth DirAC (610) para presentar la parte de señal de primer plano, la primera etapa de monosynth DirAC (610) está configurada para crear una primera corriente de monoDirAC que conduce a una percepción de una fuente semejante a punto cercano, y una segunda etapa de monosynth DirAC (620) para presentar la parte de señal de fondo, la segunda etapa
    20 monosynth DirAC (610) está configurada para crear una corriente monoDirAC que conduce a una percepción de sonido esparcido espacialmente, en donde una corriente monoDirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y
    25 un procesador (130) para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial, en donde el procesador (130) comprende una etapa de fusión DirAC (630) para fusionar la primera corriente monoDirAC y la segunda corriente monoDirAC.
  2. 2. El aparato de conformidad con la reivindicación 1, caracterizado porque la primera etapa monosynth DirAC (610)
    30 está configurada de modo que los datos de azimuth se mantienen constantes con frecuencia y cambiados aleatoriamente o controlados por un proceso externo en tiempo dentro de un rango de azimuth controlado, y un parámetro de difusividad es ajustado a cero, y en el cual la segunda etapa monosynth DirAC (610) está configurada de modo que los datos de azimuth son ajustados aleatorios en tiempo y frecuencia dentro de valores de azimuth de restricción dados.
    35
  3. 3. Un método para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada y un parámetro de entrada, caracterizado porque comprende las etapas de:
    descomponer semánticamente la señal de audio de entrada para obtener una primera señal descompuesta con
    40 una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad semántica que es diferente desde la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de fondo; presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica al procesar la primera señal descompuesta en una
    45 primera etapa monosynth DirAC (610), la primera etapa monosynth DirAC (610) está configurada para crear una primera corriente monoDirAC que conduce a una percepción de una fuente semejante a punto cercano; presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica al procesar la segunda señal descompuesta en una segunda etapa monosynth DirAC (620), la segunda etapa monosynth DirAC (610) está configurada para
    50 crear una corriente monoDirAC que conduce a una percepción de sonido esparcido espacialmente; en donde una corriente monoDirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y
    55 procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial usando una etapa de fusión DirAC (630) para fusionar la primera corriente monoDirAC y la segunda corriente monoDirAC.
  4. 4. El método de conformidad con la reivindicación 3, caracterizado porque en la primera etapa monosynth DirAC
    60 (610), el dato azimuth se mantiene constante con frecuencia y cambia aleatoriamente o controlado por un proceso externo en tiempo dentro de un rango de azimuth controlado, y un parámetro de difusividad es ajustado a cero, y en el cual, en la segunda etapa monosynth DirAC (610), el dato azimuth es ajustado aleatorio en tiempo y frecuencia dentro de los valores de azimuth de restricción dados.
    13
  5. 5. Programa de computadora con un código de programa para realizar el método de conformidad con la reivindicación 3, caracterizado porque el código de programa corre en una computadora o un procesador.
    14
ES11187018.4T 2008-08-13 2009-08-11 Un aparato para determinar una señal de audio de multi-canal de salida espacial Active ES2545220T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US8850508P 2008-08-13 2008-08-13
US88505P 2008-08-13
EP08018793 2008-10-28
EP08018793A EP2154911A1 (en) 2008-08-13 2008-10-28 An apparatus for determining a spatial output multi-channel audio signal

Publications (1)

Publication Number Publication Date
ES2545220T3 true ES2545220T3 (es) 2015-09-09

Family

ID=40121202

Family Applications (3)

Application Number Title Priority Date Filing Date
ES11187018.4T Active ES2545220T3 (es) 2008-08-13 2009-08-11 Un aparato para determinar una señal de audio de multi-canal de salida espacial
ES09777815T Active ES2392609T3 (es) 2008-08-13 2009-08-11 Aparato para determinar una señal de audio multicanal de salida espacial
ES11187023.4T Active ES2553382T3 (es) 2008-08-13 2009-08-11 Un aparato y un método para generar datos de salida por ampliación de ancho de banda

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES09777815T Active ES2392609T3 (es) 2008-08-13 2009-08-11 Aparato para determinar una señal de audio multicanal de salida espacial
ES11187023.4T Active ES2553382T3 (es) 2008-08-13 2009-08-11 Un aparato y un método para generar datos de salida por ampliación de ancho de banda

Country Status (17)

Country Link
US (3) US8824689B2 (es)
EP (4) EP2154911A1 (es)
JP (3) JP5425907B2 (es)
KR (5) KR101424752B1 (es)
CN (3) CN102523551B (es)
AU (1) AU2009281356B2 (es)
BR (3) BRPI0912466B1 (es)
CA (3) CA2822867C (es)
CO (1) CO6420385A2 (es)
ES (3) ES2545220T3 (es)
HK (4) HK1168708A1 (es)
MX (1) MX2011001654A (es)
MY (1) MY157894A (es)
PL (2) PL2311274T3 (es)
RU (3) RU2504847C2 (es)
WO (1) WO2010017967A1 (es)
ZA (1) ZA201100956B (es)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107631B2 (en) * 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
EP2359608B1 (en) 2008-12-11 2021-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating a multi-channel audio signal
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
RU2573774C2 (ru) 2010-08-25 2016-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2541542A1 (en) 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
RU2595912C2 (ru) 2011-05-26 2016-08-27 Конинклейке Филипс Н.В. Аудиосистема и способ для нее
CA3151342A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
KR101901908B1 (ko) 2011-07-29 2018-11-05 삼성전자주식회사 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9336792B2 (en) * 2012-05-07 2016-05-10 Marvell World Trade Ltd. Systems and methods for voice enhancement in audio conference
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
RU2628195C2 (ru) 2012-08-03 2017-08-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования
RU2613731C2 (ru) 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN108806706B (zh) 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US9332370B2 (en) * 2013-03-14 2016-05-03 Futurewei Technologies, Inc. Method and apparatus for using spatial audio rendering for a parallel playback of call audio and multimedia content
US20160066118A1 (en) * 2013-04-15 2016-03-03 Intellectual Discovery Co., Ltd. Audio signal processing method using generating virtual object
EP2806658B1 (en) * 2013-05-24 2017-09-27 Barco N.V. Arrangement and method for reproducing audio data of an acoustic scene
EP3005344A4 (en) * 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
KR102149046B1 (ko) * 2013-07-05 2020-08-28 한국전자통신연구원 2차원 및 3차원 공간 상에서의 가상 음상 정위 방법
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
EP3053359B1 (en) 2013-10-03 2017-08-30 Dolby Laboratories Licensing Corporation Adaptive diffuse signal generation in an upmixer
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103607690A (zh) * 2013-12-06 2014-02-26 武汉轻工大学 一种3d音频中多声道信号的下混方法
KR102343453B1 (ko) 2014-03-28 2021-12-27 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
EP2942982A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
RU2656986C1 (ru) 2014-06-26 2018-06-07 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10142757B2 (en) * 2014-10-16 2018-11-27 Sony Corporation Transmission device, transmission method, reception device, and reception method
CN114554386A (zh) 2015-02-06 2022-05-27 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
CN107980225B (zh) * 2015-04-17 2021-02-12 华为技术有限公司 使用驱动信号驱动扬声器阵列的装置和方法
MX2018003529A (es) 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
WO2018026963A1 (en) * 2016-08-03 2018-02-08 Hear360 Llc Head-trackable spatial audio for headphones and system and method for head-trackable spatial audio for headphones
US10901681B1 (en) * 2016-10-17 2021-01-26 Cisco Technology, Inc. Visual audio control
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
KR102580502B1 (ko) * 2016-11-29 2023-09-21 삼성전자주식회사 전자장치 및 그 제어방법
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
EP3382704A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
GB2565747A (en) * 2017-04-20 2019-02-27 Nokia Technologies Oy Enhancing loudspeaker playback using a spatial extent processed audio signal
US10416954B2 (en) * 2017-04-28 2019-09-17 Microsoft Technology Licensing, Llc Streaming of augmented/virtual reality spatial audio/video
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
PT3692523T (pt) 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
GB201808897D0 (en) * 2018-05-31 2018-07-18 Nokia Technologies Oy Spatial audio parameters
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
EP3818730A4 (en) * 2018-07-03 2022-08-31 Nokia Technologies Oy SIGNALING AND ENERGY REPORT SUMMARY
DE102018127071B3 (de) * 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
JP7285967B2 (ja) * 2019-05-31 2023-06-02 ディーティーエス・インコーポレイテッド フォービエイテッドオーディオレンダリング
CN113889125B (zh) * 2021-12-02 2022-03-04 腾讯科技(深圳)有限公司 音频生成方法、装置、计算机设备和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR595335A (fr) * 1924-06-04 1925-09-30 Procédé d'élimination des parasites naturels ou artificiels, permettant l'emploi, en t. s. f., des appareils télégraphiques rapides dits
US5210366A (en) * 1991-06-10 1993-05-11 Sykes Jr Richard O Method and device for detecting and separating voices in a complex musical composition
GB9211756D0 (en) * 1992-06-03 1992-07-15 Gerzon Michael A Stereophonic directional dispersion method
JP4038844B2 (ja) * 1996-11-29 2008-01-30 ソニー株式会社 ディジタル信号再生装置、ディジタル信号再生方法、ディジタル信号記録装置、ディジタル信号記録方法及び記録媒体
JP3594790B2 (ja) * 1998-02-10 2004-12-02 株式会社河合楽器製作所 ステレオ楽音発生方法及びその装置
WO2000019415A2 (en) * 1998-09-25 2000-04-06 Creative Technology Ltd. Method and apparatus for three-dimensional audio display
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
RU2391714C2 (ru) * 2004-07-14 2010-06-10 Конинклейке Филипс Электроникс Н.В. Преобразование аудиоканалов
EP1803288B1 (en) * 2004-10-13 2010-04-14 Koninklijke Philips Electronics N.V. Echo cancellation
WO2006060279A1 (en) 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
KR100714980B1 (ko) 2005-03-14 2007-05-04 한국전자통신연구원 가상음원위치정보를 이용한 멀티채널 오디오 신호의 압축및 복원 방법
BRPI0706285A2 (pt) * 2006-01-05 2011-03-22 Ericsson Telefon Ab L M métodos para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico e para transmitir dados digitais representando som a uma unidade móvel, decodificador envolvente paramétrico para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico, e, terminal móvel
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
JP4819742B2 (ja) 2006-12-13 2011-11-24 アンリツ株式会社 信号処理方法および信号処理装置
US8553891B2 (en) * 2007-02-06 2013-10-08 Koninklijke Philips N.V. Low complexity parametric stereo decoder

Also Published As

Publication number Publication date
CA2734098C (en) 2015-12-01
EP2418877A1 (en) 2012-02-15
HK1154145A1 (en) 2012-04-20
CA2734098A1 (en) 2010-02-18
ES2553382T3 (es) 2015-12-09
BR122012003058A2 (pt) 2019-10-15
CN102165797B (zh) 2013-12-25
EP2418877B1 (en) 2015-09-09
AU2009281356A1 (en) 2010-02-18
RU2523215C2 (ru) 2014-07-20
KR20130027564A (ko) 2013-03-15
KR101456640B1 (ko) 2014-11-12
US20120051547A1 (en) 2012-03-01
BR122012003329A2 (pt) 2020-12-08
KR20120006581A (ko) 2012-01-18
CA2822867C (en) 2016-08-23
RU2504847C2 (ru) 2014-01-20
EP2311274B1 (en) 2012-08-08
JP2011530913A (ja) 2011-12-22
AU2009281356B2 (en) 2012-08-30
US20110200196A1 (en) 2011-08-18
EP2421284A1 (en) 2012-02-22
CN102165797A (zh) 2011-08-24
RU2011154550A (ru) 2013-07-10
BR122012003329B1 (pt) 2022-07-05
ES2392609T3 (es) 2012-12-12
JP5526107B2 (ja) 2014-06-18
JP5425907B2 (ja) 2014-02-26
JP2012070414A (ja) 2012-04-05
CN102523551B (zh) 2014-11-26
CA2822867A1 (en) 2010-02-18
ZA201100956B (en) 2011-10-26
EP2311274A1 (en) 2011-04-20
KR20130073990A (ko) 2013-07-03
HK1172475A1 (en) 2013-04-19
US20120057710A1 (en) 2012-03-08
KR101226567B1 (ko) 2013-01-28
RU2011154551A (ru) 2013-07-10
HK1164010A1 (en) 2012-09-14
BR122012003058B1 (pt) 2021-05-04
RU2011106583A (ru) 2012-08-27
KR101424752B1 (ko) 2014-08-01
CN102348158B (zh) 2015-03-25
JP5379838B2 (ja) 2013-12-25
CA2827507A1 (en) 2010-02-18
MX2011001654A (es) 2011-03-02
KR20110050451A (ko) 2011-05-13
CO6420385A2 (es) 2012-04-16
PL2311274T3 (pl) 2012-12-31
BRPI0912466A2 (pt) 2019-09-24
BRPI0912466B1 (pt) 2021-05-04
US8855320B2 (en) 2014-10-07
CN102348158A (zh) 2012-02-08
EP2421284B1 (en) 2015-07-01
RU2537044C2 (ru) 2014-12-27
US8879742B2 (en) 2014-11-04
HK1168708A1 (en) 2013-01-04
KR101310857B1 (ko) 2013-09-25
WO2010017967A1 (en) 2010-02-18
EP2154911A1 (en) 2010-02-17
CN102523551A (zh) 2012-06-27
KR20120016169A (ko) 2012-02-22
MY157894A (en) 2016-08-15
US8824689B2 (en) 2014-09-02
JP2012068666A (ja) 2012-04-05
KR101301113B1 (ko) 2013-08-27
PL2421284T3 (pl) 2015-12-31
CA2827507C (en) 2016-09-20

Similar Documents

Publication Publication Date Title
ES2545220T3 (es) Un aparato para determinar una señal de audio de multi-canal de salida espacial
AU2011247872B8 (en) An apparatus for determining a spatial output multi-channel audio signal
AU2011247873A1 (en) An apparatus for determining a spatial output multi-channel audio signal