ES2426136T3 - Tanscodificador de formatos de audio - Google Patents

Tanscodificador de formatos de audio Download PDF

Info

Publication number
ES2426136T3
ES2426136T3 ES10718175T ES10718175T ES2426136T3 ES 2426136 T3 ES2426136 T3 ES 2426136T3 ES 10718175 T ES10718175 T ES 10718175T ES 10718175 T ES10718175 T ES 10718175T ES 2426136 T3 ES2426136 T3 ES 2426136T3
Authority
ES
Spain
Prior art keywords
audio
signal
converted signal
spatial
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10718175T
Other languages
English (en)
Inventor
Oliver Thiergart
Cornelia Falch
Fabian KÜCH
Giovanni Del Galdo
Jürgen HERRE
Markus Kallinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2426136T3 publication Critical patent/ES2426136T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un transcodificador de formato de audio (100) para transcodificar una señal de audio de entrada, la señal de audiode entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende: un convertidor (110) para convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene unarepresentación de señal convertida y una dirección de llegada de señal convertida; un proveedor de posición (120) para proveer por lo menos dos posiciones espaciales de por lo menos dos fuentesde audio espaciales y un procesador (130) para procesar la representación de señal convertida en base a las por lo menos dos posicionesespaciales y la dirección de llegada de señal convertida para obtener por lo menos dos medidas de fuente de audioseparadas, en donde el procesador (130) es apto para determinar un factor de ponderación para cada una de las por lo menosdos fuentes de audio separadas y en donde el procesador (130) es apto para procesar la representación de señal convertida en términos de por lomenos dos filtros espaciales (311, 322, 31N) que dependen de los factores de ponderación para aproximar por lomenos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lomenos dos medidas de audio separadas o en donde el procesador (130) es apto para estimar (402) una informaciónde energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación deseñal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.

Description

Tanscodificador de formatos de audio
[0001] La presente invención es con el campo de transcodificación de formatos de audio, especialmente la transcodificación de formatos de codificación paramétricos.
[0002] Recientemente, varias técnicas paramétricas para la codificación de señales de audio de multicanal/multiobjetos han sido propuestas. Cada sistema tiene ventajas y desventajas únicas, sus características tales como el tipo de caracterización paramétrica, dependencia/independencia de una instalación de altavoces específica, etc. Diferentes técnicas, paramétricas son optimizadas para diferentes estrategias de codificación.
[0003] Como un ejemplo el formato de codificación de audio direccional (DIRAC) para la representación del sonido multi-canal está basado en una señal de mezcla descendente e información lateral que contienen los parámetros de dirección y difusividad para un número de sub-bandas de frecuencia. Debido a esta parametrización, el sistema de DIRAC puede ser usado para implementar fácilmente, por ejemplo filtración direccional y de esta manera para aislar sonido que se origina de una dirección particular en relación con un arreglo de micrófono usado para captar el sonido. De esta manera, DIRAC puede también ser considerado como un extremo frontal acústico que es apto de cierto procesamiento espacial.
[0004] Como un ejemplo adicional, Spatial Audio Object Coding (SAOC) ISO/IEC, “MPEG audio technologies – Part.
2:
Spatial Audio Object Coding (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2, J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC to SAOC – Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007, J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert,
A.
Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC)
– The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008, Preprint 7377, es un sistema de codificación paramétrico que representa escenas de audio que contienen múltiples objetos de audio de una manera eficiente en velocidad de bits.
[0005] Aquí, la representación está basada en una señal de mezcla descendente e información lateral paramétrica. En contraste con DIRAC, que tiene como objetivo representar la escena de sonido espacial original como fue captada por el arreglo de micrófonos, SAOC no tiene como objetivo para reconstruir una escena de sonido natural. En lugar de esto, un número de objetos de audio (fuentes de sonido) son transmitidos y son combinados en un descodificador de SAOC a una escena de sonido objetivo de acuerdo con las preferencias del usuario en la terminal del descodificador, esto es, el usuario puede colocar y manipular libre e interactivamente cada uno de los objetos de sonido.
[0006] En general, en la reproducción y escucha de multi-canal, un usuario está rodeado por múltiples altavoces. Existen varios procedimientos para capturar señales de audio para instalaciones específicas. Un objeto general en la reproducción es reproducir la composición espacial de una señal grabada originalmente, esto es, el origen de una fuente de audio individual, tal como la ubicación de una trompeta en una orquesta. Varias instalaciones de altavoces son bastante comunes y pueden crear diferentes impresiones espaciales. Sin usar técnicas de post-producción especiales, los montajes estéreo de dos canales comúnmente conocidos pueden solamente recrear eventos auditivos en una línea entre los dos altavoces. Esto es obtenido principalmente mediante la llamada “toma panorámica de amplitud”, en donde la amplitud de la señal asociada con una fuente de audio es distribuida entre los dos altavoces dependiendo de la posición de la fuente de audio con respecto a los altavoces. Esto se hace usualmente durante la grabación o mezcla subsecuente. Esto es, una fuente de audio procedente de la izquierda lejana con respecto a la posición de escucha será reproducida principalmente por el altavoz izquierdo, mientras que una fuente de audio enfrente de la posición de escucha será reproducida con amplitud (nivel) idéntica por ambos altavoces. Sin embargo, el sonido que emana de otras direcciones no puede ser reproducido.
[0007] Consecuentemente, al usar más altavoces que están colocados alrededor del usuario, se pueden cubrir más direcciones y se puede crear una impresión espacial más natural. La disposición física de altavoz de multi-canal probablemente más bien conocida es el estándar 5.1 (ITU-R775-1), que consiste de 5 altavoces, cuyos ángulos acimutales con respecto a la posición de escucha son predeterminados para ser de 0°, ±30° y ±110°. Eso significa que durante la grabación o mezcla, la señal es confeccionada a aquella configuración de altavoces específica y desviaciones de un montaje de reproducción del estándar dará como resultado calidad de reproducción disminuida.
[0008] También se han propuesto numerosos otros sistemas con números variables de altavoces ubicados en direcciones diferentes. Sistemas profesionales, especialmente en cines e instalaciones de sonido, también incluyen altavoces a diferentes alturas.
[0009] De acuerdo con los diferentes montajes de reproducción, varios procedimientos de grabación diferentes han sido diseñados y propuestos para los sistemas de altavoz mencionados previamente, con el fin de grabar y reproducir la impresión espacial en la situación de escucha como habría sido percibida en el medio ambiente de grabación. Una manera teóricamente ideal de grabar sonido espacial para un sistema de altavoces multi-canal escogido sería usar el mismo número de micrófonos como altavoces. En tal caso, los patrones de directividad de los micrófonos deben también corresponder a la disposición física de altavoces, de tal manera que el sonido de cualquier dirección individual solamente grabado con un número pequeño de micrófonos (1, 2 o más). Cada micrófono está asociado a un altavoz específico. Mientras más altavoces son usados en la reproducción, más estrechos son los patrones de directividad de los micrófonos tiene que ser. Sin embargo, los micrófonos direccionales estrechos son más bien caros y comúnmente tienen una respuesta de frecuencia no plana, degradando la calidad del sonido grabado de manera indeseable. Además, usando varios micrófonos con patrones de directividad demasiado amplia como entrada a la reproducción de multi-canal da como resultado una percepción auditiva coloreada y borrosa debido al hecho de que el sonido que emana de una sola dirección siempre sería reproducido con más altavoces que lo que es necesario ya que sería grabado con micrófonos asociados a diferentes altavoces. En general, los micrófonos actualmente disponibles son mejor apropiados para grabaciones y reproducciones de dos canales, esto es, están diseñados sin el objetivo de una reproducción de una impresión espacial de los alrededores.
[0010] Desde el punto de vista de diseño de micrófono, se han discutido varios procedimientos para adaptar los patrones de directividad de micrófonos a las demandas en reproducción de audio espacial. En general, todos los micrófonos capturan sonido diferentemente dependiendo de la dirección de llegada del sonido al micrófono. Esto es, los micrófonos tienen una sensibilidad diferente, dependiendo de la dirección de llegada del sonido grabado. En algunos micrófonos, este efecto es menor, ya que capturan sonido casi independientemente de la dirección. Estos micrófonos son llamados en general micrófonos omnidireccionales. En un diseño de micrófono típico, un diafragma secular es anexado a una envolvente hermética al aire pequeña. Si el diafragma no es anexado al envolvente y el sonido llega al mismo igualmente desde cada lado, su patrón direccional tiene dos lóbulos. Esto es, tal micrófono captura sonido con igual sensibilidad de la parte frontal como de la parte posterior del diafragma, sin embargo con polaridades inversas. Tal micrófono no captura sonido procedente de la dirección coincidente al plano del diafragma, esto es, perpendicular a la dirección de sensibilidad máxima. Tal patrón direccional es llamado dipolo o de figura de ocho.
[0011] Los micrófonos omnidireccionales pueden también ser modificados a micrófonos direccionales, utilizando una envolvente no hermética al aire para el micrófono. La envolvente está construida especialmente de tal manera que se permite que las ondas de sonido se propaguen a través de la envolvente y lleguen al diafragma, en donde algunas direcciones de propagación son preferidas, de tal manera que el patrón direccional de tal micrófono se convierte en un patrón entre omnidireccional y dipolos. Estos patrones pueden tener por ejemplo dos lóbulos. Sin embargo, los lóbulos pueden tener resistencia diferente. Algunos micrófonos comúnmente conocidos tienen patrones que tienen solamente un lóbulo. El ejemplo más importante es el patrón cardioide, en donde la función direccional D puede ser expresada como D = 1 + coseno (8), 8 es la direcci
ón de llegada del sonido. La función direccional tal cuantifica, que fracción de amplitud del sonido entrante es capturada, dependiendo de la dirección diferente.
[0012] Los patrones omnidireccional discutidos previamente también son llamados patrones de orden 0 y los otros patrones mencionados previamente (dipolo y cardioide) son llamados patrones de primer orden. Todos los diseños de micrófono discutidos previamente no permiten la formación arbitraria de los patrones de directividad, puesto que su patrón de directividad es determinado completamente por la construcción mecánica.
[0013] Para superar parcialmente el problema, algunas estructuras acústicas especializadas han sido diseñadas, que pueden ser usadas para crear patrones direccionales más estrechos que aquellos de los micrófonos de primer orden. Por ejemplo, cuando un tubo con agujeros en el mismo es anexado a un micrófono omnidireccional, se puede crear un micrófono con patrón direccional estrecho. Estos micrófonos son llamados micrófonos de escopeta o rifle. Sin embargo, comúnmente no tienen una respuesta de frecuencia plana, esto es, el patrón de directividad es estrechado al costo de la calidad del sonido grabado. Además, el patrón de directividad es predeterminado por la construcción geométrica y así, el patrón de directividad de una grabación efectuada con tal micrófono no puede ser controlado después de la grabación.
[0014] Por consiguiente, otros procedimientos han sido propuestos para parcialmente permitir o alterar el patrón de directividad después de la grabación real. En general, esto depende de la idea básica de grabación de sonido con un arreglo de micrófonos omnidireccionales o direccionales y aplicar el procesamiento de señal después de esto. Varias de tales técnicas han sido propuestas recientemente. Un ejemplo bastante simple es grabar sonido con dos micrófonos omnidireccionales, que son colocados cercanos entre sí y restar ambas señales entre sí. Esto crea una señal de micrófono virtual que tiene un patrón direccional equivalente a un dipolo.
[0015] En otros esquemas más sofisticados, las señales de micrófono pueden también ser retardadas o filtradas antes de sumarlas. Utilizando la formación, una señal correspondiente a un haz estrecho es formada mediante la filtración de cada señal del micrófono con un filtro diseñado especialmente y sumar las señales después de la filtración (formación de haz de suma de filtros). Sin embargo, estas técnicas son ciegas a la señal misma, esto es, no están conscientes de la dirección de llegada del sonido. Así, un patrón direccional predeterminado puede ser definido, que es independiente de la presencia real de una fuente de sonido en la dirección predeterminada. En general, la estimación de la “dirección de llegada” del sonido es una tarea por sí misma.
[0016] En general, numerosas características direccionales espaciales diferentes pueden ser formadas con las técnicas anteriores. Sin embargo, la formación de patrones de sensibilidad selectivos especialmente de manera arbitraria (esto es, formación de patrones direccionales estrechos) requiere un gran número de micrófonos.
[0017] Una manera alternativa para crear grabaciones de multi-canal es colocar un micrófono cerca de cada fuente de sonido (por ejemplo, un instrumento) a ser grabada y recrear la impresión espacial al controlar los niveles de las señales de micrófono de acercamiento en la mezcla final. Sin embargo, tal sistema demanda un gran número de micrófonos y mucha interacción del usuario para crear la mezcla descendente final.
[0018] Un procedimiento para superar el problema anterior es DIRAC, que puede ser usado con diferentes sistemas de micrófono y que es apto de grabar sonido para reproducción con montajes de altavoces arbitrarios. El propósito de DIRAC es reproducir la impresión espacial de un medio ambiente acústico tan precisamente como sea posible, usando un sistema de altavoces de multicanal que tiene una instalación geométrica arbitraria. En este medio ambiente de grabación, las respuestas del medio ambiente (que puede ser sonido grabado continuo o respuesta de impulso) son medidas con un micrófono omnidireccional (w) y con un conjunto de micrófonos que permiten medir la dirección de llegada de sonido y la difusividad del sonido.
[0019] En los siguientes párrafos y en la solicitud, se comprenderá que el término “difusividad” es una medida para la no directividad de sonido. Esto es, el sonido que llegue en la posición de grabación o escucha con igual intensidad desde todas las direcciones, es difundido máximamente. Una manera común de cuantificar la difusión es usar valores de difusividad del intervalo [0, ..., 1], en donde un valor de 1 describe el sonido difundido máximamente y un valor de 0 describe sonido perfectamente direccional, esto es, sonido que llega desde una dirección claramente distinguibles solamente. Un procedimiento comúnmente conocido para medir la dirección de llegada del sonido es aplicar tres micrófonos de figura de 8 (X, Y, Z) alineados con ejes de coordenadas cartesianas. Micrófonos especiales, llamados “micrófonos de formato B”, han sido diseñados, que producen directamente todas las respuestas deseadas. Sin embargo, como se menciona anteriormente, las señales W, X, Y y Z pueden también ser calculadas de un conjunto de micrófonos omnidireccionales discretos.
[0020] En el análisis de DIRAC, una señal de sonido grabada es dividida en canales de frecuencia, que corresponden a la selectividad de frecuencias de la percepción auditiva humana. Esto es, la señal es por ejemplo procesada por un banco de filtros o una transformada de Fourier para dividir la señal en numerosos canales de frecuencia, que tienen un ancho de banda adaptado a la selectividad de frecuencia de la audición humana. Luego, las señales de banda de frecuencia son analizadas para determinar la dirección de origen de sonido y un valor de difusividad para cada canal de frecuencia con una resolución en el tiempo predeterminada. Esta resolución en el tiempo no tiene que ser fija y por supuesto, puede ser adaptada al medio ambiente de grabación. En DIRAC, uno o más canales de audio son grabados o transmitidos, junto con la dirección analizada y datos de difusividad.
[0021] En la síntesis o descodificación, los canales de audio finalmente aplicados a los altavoces pueden estar basados en el canal omnidireccional W (grabado con una alta calidad debido al patrón de directividad omnidireccional del micrófono usado) o el sonido para cada altavoz puede ser calculado como suma ponderada de W, X, Y y Z, formando así una señal que tiene una cierta característica direccional para cada altavoz. Correspondiente a la codificación, cada canal de audio es dividido en canales de frecuencia, que son opcionalmente divididos de manera adicional en corrientes difusas y no difusas, dependiendo de la difusividad analizada. Si la difusividad tiene que ser medida para ser alta, una corriente difusa puede ser reproducida utilizando una técnica que produce una percepción difusa del sonido, tal como las técnicas de descorrelación también usadas en codificación de pista binaural.
[0022] El sonido no difuso el sonido es reproducido utilizando una técnica como objetivo reproducir una fuente de audio virtual semejante a punto, ubicada en la dirección indicada por los datos de dirección encontrados en el análisis, esto es, la generación de la señal de DIRAC. Esto es, la reproducción espacial no es confeccionada a un montaje de altavoces “ideal” específico, como en las técnicas del arte previo (por ejemplo 5.1). Este es particularmente el caso ya que el origen del sonido es determinado como parámetros de dirección (esto es, descrito por un vector) utilizando el conocimiento a cerca de los patrones de directividad en los micrófonos utilizados en la grabación. Como ya se discutió, el origen del sonido en el espacio tridimensional es parametrizado de manera frecuencia-selectiva. Como tal, la impresión direccional puede ser reproducida con alta calidad para montajes de altavoces arbitrarios, ya que la geometría del montaje de altavoces es conocida. DIRAC por consiguiente no está limitado a geometrías de altavoces especiales y permite en general, una reproducción espacial más flexible del sonido.
[0023] DIRAC, cf. Pulkki, V., provee un sistema para representar señales de audio espaciales en base a una o más señales de mezcla descendente más información lateral adicional. La información lateral describe, entre otros aspectos posibles la dirección de llegada del campo de sonido en el grado de su difusividad en un número de bandas de frecuencias, como se muestra en la figura 5. Otro ejemplo de un DirAc conocido se describe en MARKUS KALLINGER Y OTROS: "Spatial filtering using directional audio coding parameters", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2009. ICASSP 2009. IEEE INTERNATIONAL CONFERENCE ON, PISCATAWAY, NJ, USA, 19 de Abril de 2009, páginas 217-220, XP031459205
[0024] La figura 5 ejemplifica una señal de DIRAC, que está compuesta de tres componentes direccionales como por ejemplo, señales de micrófono de figura de ocho X, Y, Z más una señal omnidireccional W. Cada una de las señales está disponible en el dominio de frecuencia, que es ilustrado en la figura 5 por múltiples planos apilados para cada una de las señales. En base a las cuatro señales, se puede llevar a cabo una estimación de la dirección y difusividad en los bloques 510 y 520, que ejemplifican dicha estimación de la dirección y la difusividad para cada uno de los canales de frecuencia. El resultado de estas estimaciones es dado por los parámetros
8 8(t,f), <(t,f) Y L(t,f) que representan el ángulo de acimut, el ángulo de elevación y la difusividad para cada una de las capas de frecuencia.
[0025] La parametrización de DIRAC puede ser usada para implementar fácilmente un filtro espacial con una característica espacial deseada, por ejemplo, solamente hacer pasar sonido de la dirección de un parlante particular. Esto se puede obtener mediante la aplicación de una dirección/difusividad y opcionalmente ponderación dependiente de frecuencia a las señales de mezcla descendente como se ilustra en las figuras 6 y 7.
[0026] La figura 6 muestra un descodificador 620 para reconstrucción de una señal de audio. El descodificador 620 un comprende un selector de dirección 622 y un procesador de audio 624. De acuerdo con el ejemplo de la figura 6, una entrada de audio de multi-canal 626 grabada por varios micrófonos es analizada por un analizador de dirección 628 que deriva parámetros de dirección que indican una dirección de origen de una porción de las señales de audio, esto es, la dirección de origen de la porción de señal analizada. La dirección, de la cual la mayor parte de la energía es incidente al micrófono es escogida y la posición de grabación es determinada para cada porción de señal específica. Esto se puede hacer por ejemplo, también usando la técnica de micrófono de DIRAC descritas previamente. Otros procedimientos de análisis direccional basados en información de audio grabada puede ser usado para implementar el análisis. Como resultado, el analizador de dirección 628 deriva parámetros de dirección 630, que indica la dirección de origen de una porción de un canal de audio o de la señal de multi-canal 626. Además, el analizador direccional 628 puede ser operativo para derivar un parámetro de difusividad 632 para cada porción de señal, por ejemplo para cada intervalo de frecuencia o para cada cuadro de tiempo de la señal.
[0027] El parámetro de dirección 630 y opcionalmente, el parámetro de difusividad 632 son transmitidos al selector de dirección 620, que es implementado para seleccionar la dirección deseada para el origen con respecto a una posición de grabación o una porción reconstruida de la señal de audio reconstruida. La información en cuanto a la dirección deseada es transmitida al procesador de audio 624. El procesador de audio 624 recibe por lo menos un canal de audio 634, que tiene una porción para lo cual los parámetros de dirección han sido derivados. El por lo menos un canal modificado por el procesador de audio puede por ejemplo ser un mezcla descendente de la señal de multi-canal 626, generada mediante algoritmos de mezcla descendente multicanal convencionales. Un caso extremadamente simple sería la suma directa de las señales de la entrada de audio de multi-canal 626. Sin embargo, ya que el concepto no está limitado por el número de canales de entrada, todos los canales de entrada de audio 626 pueden ser procesados simultáneamente por el descodificador de audio 620.
[0028] El procesador de audio 624 modifica la porción de audio para derivar la porción reconstruida de la señal de audio reconstruida, en donde la modificación comprende incrementar una intensidad de una porción del canal de audio que tiene parámetros de dirección que indican una dirección de origen cercana a la dirección deseada de origen con respecto a otra porción del canal de audio que tiene parámetros de dirección que indican una dirección de origen alejada de la dirección de origen deseada. En el ejemplo de la figura 6, la modificación es efectuada al multiplicar un factor de escalamiento 636 (q) con la porción del canal de audio a ser modificada. Esto es, si la porción del canal de audio es analizada para ser originaria de una dirección cercana a la dirección deseada seleccionada, un factor de escalamiento grande 636 es multiplicado con la porción de audio. Así, en su salida 638, el procesador de audio emite una porción reconstruida de la señal de audio reconstruida correspondiente a la porción del canal de audio provisto en su entrada. Como se indica además por la línea discontinua en la salida 638 del procesador de audio 624, esto puede no solamente ser efectuado para una señal de mono-salida, sino también para señales de salida de multi-canal, para los cuales el número de canales de salida no es fijo o predeterminado.
[0029] En otras palabras, el descodificador de audio 620 toma su entrada de tal análisis direccional por ejemplo como se usa en DIRAC. Las señales de audio 626 de un arreglo de micrófonos pueden ser divididas en bandas de frecuencia de acuerdo con la resolución de frecuencia del sistema auditivo humano. La dirección del sonido y opcionalmente la difusividad de sonido es analizada dependiendo del tiempo en cada canal de frecuencia. Estos atributos son proporcionados además, por ejemplo ángulos de dirección de azimuth (azi) y elevación (ele) y como índice difusividad (4), que varía entre cero y uno.
[0030] Luego, la característica direccional propuesta o seleccionada es impuesta sobre las señales adquiridas al usar una operación de ponderación sobre ellas, que depende de los ángulos de dirección (azih y ele) y opcionalmente, de la difusividad (4). Evidentemente, esta ponderación puede ser especificada diferentemente para diferentes bandas de frecuencia y en general, variarán con respecto al tiempo.
[0031] La figura 7 muestra un ejemplo adicional basado en síntesis de DIRAC. En este sentido, el ejemplo de la figura 7 podría ser interpretado como una mejora de la reproducción de DIRAC, que permite controlar el nivel del sonido dependiendo de la dirección analizada. Esto hace posible enfatizar el sonido procedente de una o múltiples direcciones o suprimir el sonido de una o múltiples direcciones. Cuando es aplicado en reproducción de multicanal, se obtiene un post-procesamiento de la imagen del sonido reproducida. Si solamente un canal es usado como salida, el efecto es equivalente al uso de un micrófono direccional con patrones direccionales arbitrarios durante la grabación de la señal. Como se muestra en la figura 7, la derivación de parámetros de dirección, también como la derivación de un canal de audio transmitida es ilustrada. El análisis es efectuado en base a canales de micrófono de formato BW, X, Y y Z, como por ejemplo como es grabado por un micrófono de campo de sonido.
[0032] El procesamiento es efectuado de cuadro en cuadro. Por consiguiente, las señales de audio continuas son divididas en cuadros, que son escalados por una en función de ventana para evitar discontinuidades en la frontera de cuadro. Los cuadros de señal en ventana son sometidos a una transformada de Fourier en un bloque de transformada de Fourier 740, que divide las señales del micrófono en N bandas de frecuencia. Por propósito de simplicidad, el procesamiento de una banda de frecuencia arbitraria será descrito en los siguientes párrafos, ya que las bandas de frecuencia restantes son procesadas equivalentemente. El bloque de transformada de Fourier 740 deriva coeficientes que describen la fuerza o intensidad de los componentes de frecuencia presentes en cada uno de los canales de micrófono de formato BW, X, Y y Z dentro del cuadro de ventana analizado. Estos parámetros de frecuencia 742 son introducidos al codificador de audio 744 para derivar un canal de audio y parámetros de dirección asociados. En el ejemplo mostrado en la figura 7, el canal de audio transmitido es escogido como el canal omnidireccional 746 de información en cuanto a la señal de todas direcciones. En base a los coeficientes 742 para las porciones omnidireccional y direccional de los canales de micrófono de formato B, se efectúa un análisis de dirección y difusividad por un bloque de análisis de dirección 748.
[0033] La dirección de origen del sonido para la porción analizada del canal de audio es transmitida a un descodificador de audio 750 para reconstruir la señal de audio junto con el canal omnidireccional 746. Cuando los parámetros de difusividad 752 están presentes, la trayectoria de señal es dividida en una trayectoria no difusa 754a y una trayectoria difusa 754b. La trayectoria no difusa 754a es escalada de acuerdo con el parámetro de difusividad, de tal manera que, cuando la difusividad 4 es �a�a, la maYor parte de la ener�ía o de la amplitud permanecerá en la trayectoria no difusa. Inversamente, cuando la difusividad es alta, la mayor parte de la energía será desplazada a la trayectoria difusa 754b. En la trayectoria difusa 754b, la señal es descorrelacionada o difundida utilizando descorrelacionadores 756a o 756b. La descorrelación puede ser efectuada utilizando técnicas convencionalmente conocidas, tales como convolución con una señal de ruido blanco, en donde la señal de ruido blanco puede diferir del canal de frecuencia a canal de frecuencia. En tanto que la descorrelación esté conservando energía, una salida final puede ser regenerada al simplemente agregar las señales de la trayectoria de señal no difusa 754a y la trayectoria de señal difusa 754b en la salida, puesto que las señales en las trayectorias de señal ya han sido, como se indica por el parámetro de difusividad 4.
[0034] Cuando la reconstrucción es efectuada para un montaje de multi-canal, la trayectoria de señal directa 754a también como la trayectoria de señal difusa 754b son divididas en un número de sub-trayectorias correspondientes a las señales de altavoz individuales en las posiciones divididas 758a y 758b. Para este fin, la división en la posición dividida 758a y 758b puede ser interpretada como equivalente a una mezcla ascendente de por lo menos un canal de audio a múltiples canales para una reproducción vía un sistema de altavoces que tiene múltiples altavoces.
[0035] Por consiguiente, cada uno de los múltiples canales tiene una porción de canal del canal de audio 746. La dirección de origen de las porciones de audio individuales es reconstruida por el bloque de regresión 760 que incrementa o disminuye adicionalmente la intensidad o la amplitud de las porciones de canal correspondientes a los altavoces usados para la reproducción. Para este fin, el bloque de redirección 760 requiere en general conocimiento acerca del montaje de altavoces usado para la reproducción. La redistribución (redirección) real y la derivación de los factores de ponderación asociados puede ser implementada por ejemplo utilizando técnicas que utilizan un panorámica de amplitud a base de vector. Al suministrar diferentes montajes de altavoces geométricos al bloque de redistribución 760, configuraciones arbitrarias de altavoces de reproducción pueden ser usadas en realizaciones sin pérdida de calidad de reproducción. Después del procesamiento, se efectúan múltiples transformadas de Fourier inversas sobre las señales de dominio de frecuencia por los bloque de transformada de Fourier inversa 762 para derivar una señal de dominio del tiempo, que puede ser reproducida por los altavoces individuales. Antes de la reproducción, se efectúa una técnica de superposición o traslape y adición por las unidades de suma 764 para concatenar los cuadros de audio individuales para derivar señales de dominio de tiempo continua, listas para ser reproducidas por los altavoces.
[0036] De acuerdo con el ejemplo mostrado en la figura 7, el procesamiento de señal de DIRAC es enmendado en que se introduce un procesador de audio 766 que es introducido para modificar la porción del canal de audio realmente procesada y que permite incrementar la intensidad de una porción del canal de audio que tiene parámetros direccional que indica una dirección de origen cercana a una dirección deseada. Esto se obtiene mediante la aplicación de un factor de ponderación adicional a la trayectoria de señal directa. Esto es, si la porción de frecuencia procesada se origina de la dirección deseada, la señal es enfatizada mediante al aplicar una ganancia adicional a aquella porción de señal específica. La aplicación de la ganancia puede ser efectuada antes del punto de división 758a, ya que el efecto contribuirá a todas las porciones del canal igualmente.
[0037] La aplicación del factor de ponderación adicional puede ser implementada dentro del bloque de redistribución 760 que, en aquel caso, aplica factores de ganancia de redistribución implementados por el factor de ponderación adicional.
[0038] Cuando se usa mejora direccional en la reconstrucción de una señal de multi-canal, la reproducción puede por ejemplo, ser efectuada al estilo de presentación de DIRAC, como se muestra en la figura 7. El canal de audio que ser reproducido es dividido en bandas de frecuencia igual a aquellas usadas en el análisis direccional. Estas bandas de frecuencias son luego divididas en corrientes cursos de agua, corriente difusa y una corriente no difusa. La corriente difusa es reproducida, por ejemplo, al aplicar el sonido a cada altavoz después de convolución con ráfagas de sonido blanco 30 ms. Las ráfagas de sonido son diferentes para cada altavoz. La corriente no difusa es aplicada a la dirección entregada del análisis direccional que e, por supuesto dependiente del tiempo. Para obtener una percepción direccional en sistemas de altavoces de multi-canal, se puede usar toma panorámica de amplitud de par en par simple o de triplete. Además cada canal de frecuencia es multiplicado por un factor de ganancia o factor de escalamiento, que depende de la dirección analizada. En términos generales, una función puede ser especificada, que define un patrón direccional deseada para reproducción. Este puede por ejemplo ser una sola dirección, que será enfatizada. Sin embargo, patrones direccionales arbitrarios pueden ser fácilmente implementados en línea con la figura 7.
[0039] En el siguiente procedimiento, se describe un ejemplo adicional como una lista de etapas de procesamiento. La lista está basada en la suposición de que el sonido es grabado con un micrófono de formato B y es luego procesado para escuchar con montajes de altavoz multi-canal o monofónicos utilizando presentación estilo DIRAC o prestación que suministra parámetros direccionales, que indican la dirección de origen de porciones del canal de audio.
[0040] En primer lugar, las señales de micrófono pueden ser divididas en bandas de frecuencia y ser analizadas en dirección y opcionalmente difusividad en cada banda dependiendo de la frecuencia. Como un ejemplo, la dirección puede ser parametrizada por un ángulo de acimut y un ángulo de elevación (azi, ele). En segundo lugar, se puede especificar una función F, que describe el patrón direccional deseado. La función puede tener una forma arbitraria. Depende comúnmente de la dirección. Además, también puede depender de la difusividad, si la información de difusividad está disponible. La función puede ser diferente para frecuencias diferentes y puede también ser alterada dependiendo del tiempo. En cada banda de frecuencia, un factor direccional q de la función F puede ser derivado para cada instancia de tiempo, que es usado para la ponderación (escalamiento) subsecuente de la señal de audio.
[0041] En tercer lugar, los valores de muestras de audio pueden ser multiplicados con los valores q de factores direccionales correspondientes a cada porción de tiempo y frecuencia para formar la señal de salida. Esto se puede hacer en una representación de dominio de tiempo y/o frecuencia. Además, este procesamiento puede por ejemplo sr implementado como parte de una presentación de DIRAC a cualquier número de canales de salida deseados.
[0042] Como se describió previamente, el resultado puede ser escuchado al usar un sistema de altavoces de multicanal o m un sistema de altavoces monofónicos. Recientemente, técnicas paramétricas par la transmisión/almacenamiento eficiente en velocidad de bits de escenas de audio que contienen múltiples objetos de audio han sido propuestas, por ejemplo, Binaural Cue Coding (Type 1), cf. C. Faller and F. Baumgarte, “Binaural Cue Coding – Part II: Schemes and applications”, IEEF Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003, or Joint Source Coding, cf. C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006, Preprint 6752, and MPEG Spatial Audio Object Coding (SAOC) , cf. J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC to SAOC – Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007, J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008, Preprint 7377).
[0043] Estas técnicas tienen como objetivo reconstruir perceptualmente la escena de audio de salida deseada en lugar de por una coincidencia de forma de onda. La figura 8 muestra una vista general del tal sistema (aquí: MPEG SAOC). La figura 8 muestra una vista general del sistema de SAOC MPEG. El sistema comprende un codificador de SAOC 810, un descodificador de SAOC 820 opcionalmente y un procesador 830. El procesamiento general puede ser llevado a cabo de una manera selectiva en frecuencia, en donde el procesamiento definido en los siguientes se puede llevar a cabo en cada una de las bandas de frecuencia individuales. El codificador de SAOC es introducido con un número de (N) señales de objeto de audio de entrada, que son sometidos como mezcla descendente como parte del procesamiento del codificador de SAOC. El codificador de SAOC 810 emite la señal de mezcla descendente e información lateral. La información lateral extraída por el codificador de SAOC 810 representa las características de los objetos de audio de entrada. Para SAOC de MPEG, el objeto energizado para todos los objetos de audio son los componentes más significativos de la información lateral. En la práctica, en lugar de potencias de objeto absoluta, potencias relativas, llamada diferencias de nivel de objeto (OLD) son transmitidas. La coherencia/correlación entre pares de objetos es llamada coherencia de inter-objetos (IOC) y puede ser usada para describir las propiedades de los objetos de audio de entrada adicionales.
[0044] La señal de mezcla descendente y la información lateral pueden ser transmitidas o almacenadas. Para este fin, la señal de audio de mezcla descendente puede ser comprimida utilizando codificadores de audio perceptuales bien conocidos, tales como capar 2 o 3 de MPEG-1, también conocidos como MP3, codificación de audio avanzada de MPEG (AAC), etc.
[0045] En el extremo de recepción, el decodificador SAOC 820 trata conceptualmente de restaurar las señales de objeto originales, a las cuales es también referido como separación de objeto, utilizando la información lateral transmitida. Estas señales de objeto aproximadas son luego mezcladas a una escena objetivo representada por M canales de salida de audio utilizando una matriz de representación, que es aplicada por el procesador 830. Efectivamente, la separación de las señales de objeto nunca es ejecutada puesto que tanto la etapa de separación como la etapa de mezcla son combinadas a una sola etapa de transcodificación, que da como resultado una reducción enorme en complejidad de cálculo.
[0046] Tal esquema puede ser muy eficiente, tanto en términos de velocidad de bits de transmisión, solamente necesita transmitir unos pocos canales mezcla descendente más algo de información lateral en lugar de N señales de audio de objetos más información de representación o un sistema discreto y complejidad computacional, la complejidad de procesamiento se relaciona principalmente con el número de canales de salida en lugar del número de objetos de audio. Ventajas adicionales para el usuario en el extremo de recepción incluye la libertad de escoger un montaje de prestación de su elección, por ejemplo, reproducción mono, estéreo, surround, reproducción y la función de audífonos virtualizada, etc., y el elemento de interactividad del usuario: La matriz de representación y la escena de salida, puede se ajustados y cambiados interactivamente por el usuario de acuerdo con el deseo, preferencia personal u otros criterios, por ejemplo, ubicar los parlantes de un grupo conjuntamente en un área espacial para maximizar la discriminación de otros parlantes restantes. Esta interactividad es obtenida al proveer una interfaz de usuario del descodificador.
[0047] Un concepto de transcodificación convencional para transcodificación de SAOC a MPEG surround (MPS) para prestación de multicanal es considerado en lo siguiente. En general, la descodificación de SAOC se puede hacer al usar un proceso de transcodificación. MPEG SAOC presenta la escena de audio objetivo, que está compuesta de todos los objetos de audio individuales, a un montaje de reproducción de sonido de multi-canal al transcodificarlo al formato surround de MPEG relacionado, confróntese con cf. J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier, K.S. Chong: “MPEG Surround – The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding”, 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.
[0048] De acuerdo con la figura 9, la información lateral de SAOC es analizada sintácticamente 910 y luego transcodificada 920 junto con datos suministrados por el usuario acerca de la configuración de reproducción y parámetros de presentación de objetos. Adicionalmente, los parámetros mezcla descendente de SAOC son acondicionados por un pre-procesador de mezcla descendente 930. Tanto la mezcla descendente procesada como la información lateral de MPS se pueden luego hacer pasar al descodificador de MPS 940 para la presentación final.
[0049] Los conceptos convencionales tienen la desventaja de que son ya sea fáciles de implementar como, por ejemplo para el caso de DIRAC, pero la información del usuario o prestación individual de usuario no puedan ser aplicados o son más complejos para implementar, sin embargo, proveen la ventaja de que la información del usuario puede ser considerada como, por ejemplo para SAOC.
[0050] Es el objeto de la presente invención proveer un concepto de codificación de audio que se pueden ser implementado fácilmente y permite manipulación individual del usuario.
[0051] El objeto es obtenido por un transcodificador de formato de audio de acuerdo con la reivindicación 1 y un procedimiento para transcodificación de formato de audio de acuerdo con la reivindicación 11.
[0052] Es un hallazgo de la presente invención que las capacidades de codificación de audio direccional y codificación objeto de audio espacial pueden ser combinados. Es también un hallazgo de la presente invención que componentes de audio direccionales pueden ser convertidos a medidas o señales de fuente de audio separadas. Realizaciones pueden proveer medios para combinar eficientemente las capacidades del DIRAC y el sistema de SAOC, Así creando un procedimiento que usa DIRAC como un extremo frontal acústico con su capacidad de filtración espacial integrada y usa este sistema para separar el audio entrante en objetos de audio, que son luego representados y presentado utilizando SAOC. Además, realizaciones pueden proveer la ventaja de que la conversión de una representación de DIRAC a una representación SAOC puede ser efectuada de una manera extremadamente eficiente al convertir los dos tipos de información lateral y preferiblemente en algunas realizaciones, dejando la señal de mezcla descendente sin tocar.
[0053] Realizaciones de la presente invención serán detalladas utilizando las figuras adjuntas en las cuales:
la figura 1 muestra una realización de un transcodificador de formato de audio;
la figura 2 muestra otra realización de un transcodificador de formato de audio;
la figura 3 muestra todavía otra realización de un transcodificador de formato de audio;
la figura 4a muestra una superposición de componentes de audio direccionales;
la figura 4b ilustra una función de peso ejemplar usada en una realización; la figura 4c muestra una función de ventana ejemplar usada en una realización;
la figura 5 ilustra el estado del DIRAC del arte;
la figura 6 ilustra el análisis direccional del estado de la técnica;
la figura 7 ilustra ponderación direccional del estado de la técnica combinado con presentación de DIRAC;
la figura 8 muestra una vista general del sistema de SAOC de MPEG y
la figura 9 ilustra una transcodificación de SAOC a MPS del estado de la técnica.
[0054] La figura 1 muestra un transcodificador de formato de audio 100 para transcodificar una señal de audio de entrada, la señal de audio de entrada tiene por lo menos dos componentes de audio direccionales. El transcodificador de formato de audio 100 comprende un convertidor 110 para convertir la señal de entrada a una señal convertida, la señal convertida tiene una representación de señal convertida y una dirección de llegada de señal convertida. Además, el transcodificador de formato de audio 100 comprende un proveedor de posición 120 para proveer por lo menos dos posiciones espaciales de por lo menos dos fuentes de audio espaciales. Las por lo menos dos posiciones espaciales pueden ser conocidas a priori, esto es, por ejemplo dadas o introducidas por un usuario o determinadas o detectadas en base a la señal convertida. Además, el transcodificador de formato de audio 100 comprende un procesador 130 para procesar la representación de señal convertida en base a por lo menos dos posiciones espaciales para obtener por lo menos dos medidas fuente de audio separadas.
[0055] Realizaciones pueden proveer medios para combinar eficientemente las capacidades de los sistemas de DIRAC y de SAOC. Otra realización de la presente invención es ilustrada en la figura 2. La figura 2 muestra otro transcodificador de formato de audio 100, en donde el convertidor 110 es implementado como una etapa de análisis de DIRAC 301. En realizaciones, el transcodificador de formato de audio 100 puede ser adaptado para transcodificación de una señal de entrada de acuerdo con una señal de DIRAC, una señal de formato B o una señal de un arreglo de micrófonos. De acuerdo con la realización ilustrada en la figura 2, DIRAC puede ser usado como un extremo frontal acústico para adquirir una escena de audio espacial utilizando un micrófono de formato B o alternativamente, un arreglo de micrófonos, como se muestra por la etapa o bloque de de análisis de DIRAC 301.
[0056] Como ya se mencionó anteriormente, en realizaciones, el transcodificador de formato de audio 100, el convertidor 110, el proveedor de posición 120 y/o el procesador 130 pueden ser adaptados para convertir la señal de entrada en términos de un número de sub-bandas de frecuencia y/o segmentos de tiempo o cuadros de tiempo.
[0057] En las realizaciones, el convertidor 110 puede ser adaptado para convertir la señal de entrada a la señal convertida que comprende además una medida de difusividad y/o confiabilidad por subbanda de frecuencia.
[0058] En la figura 2, la representación de la señal convertida es también marcada “señales de mezcla descendente”. En la realización ilustrada en la figura 2, la parametrización de DIRAC fundamental de la señal acústica a dirección y opcionalmente medida de difusividad y confiabilidad dentro de cada sub-banda de frecuencia puede ser usada por el proveedor de posición 120, esto es, el bloque de “número de fuentes y cálculo de posición” 304 para detectar las posiciones espaciales en las cuales las fuentes de audio están activas. De acuerdo con la línea punteada marcada “potencia de mezcla descendente” en la figura 2, las potencias de mezcla descendente puede ser provistas al proveedor de la posición 120.
[0059] En la realización ilustrada en la figura 2, el procesador 130 puede usar las posiciones espaciales, opcionalmente otro conocimiento a priori, para implementar un conjunto de filtros espaciales 311, 312, 31N para los cuales factores de ponderación son calculados en el bloque 303 con el fin de aislar o separar cada fuente de audio.
[0060] En otras palabras, en realizaciones, el procesador 130 puede ser adaptado para determinar un factor de ponderación para cada uno de por lo menos dos fuentes de audio separadas. Además, en realizaciones, el procesador 130 puede ser adaptado para procesamiento de la representación de la señal convertida en términos de por lo menos dos filtros espaciales para aproximar por lo menos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lo menos dos medidas fuente de audio separadas. La medida de fuente de audio puede por ejemplo corresponder a respectivas señales o energía de señal.
[0061] En la realización ilustrada en la figura 2, las por lo menos dos fuentes de audio son representadas más en general por N fuentes de audio y las señales correspondientes. Así, en la figura 2, se muestran N filtros o etapas de síntesis, esto es 311, 312,..., 31N. En estos N filtros espaciales, la mezcla descendente de DIRAC, esto es, los componentes omnidireccionales, da como resultado un conjunto de fuentes de audio separadas aproximadas, que pueden ser usadas como entrada a un codificador SAOC. En otras palabras, en realizaciones, las fuentes de audio separadas pueden ser interpretadas como objetos de audio distintos y subsecuentemente codificadas en un codificador de SAOC. Así, realizaciones del transcodificador de formato de audio 100 pueden comprender un codificador SAOC para codificar por lo menos dos señales fuente de audio separada para obtener una señal codificada de SAOC que comprende un componente de mezcla descendente de SAOC y un componente de información lateral de SAOC.
[0062] Las realizaciones descritas anteriormente pueden llevar a cabo una secuencia discreta de filtración direccional de DIRAC y subsecuente codificación de SAOC, para los cuales, en el siguiente, una mejora estructural será introducida, que conduce a una reducción en complejidad de cálculo. Como se explica anteriormente, en general, N señales de fuente de audio separadas pueden ser reconstruidas en realizaciones que usan N bancos de filtros de síntesis de DIRAC, 311 a 31N y luego subsecuentemente ser analizadas utilizando los bancos de filtros de análisis de SAOC en el codificador de SAOC. Luego, el codificador de SAOC puede calcular una señal de suma/mezcla descendente otra vez a partir de las señales de objetos separadas. Además, el procesamiento de las muestras de señal reales puede ser computacionalmente más complejo que llevar a cabo cálculos en el dominio de parámetros, lo que puede suceder a una velocidad de toma de muestras mucho más baja y la cual será establecida en realizaciones adicionales.
[0063] Realizaciones pueden proveer con la ventaja de procesamiento extremadamente eficiente. Realizaciones pueden comprender las siguientes dos simplificaciones. En primer lugar, tanto DIRAC como SAOC se pueden poner en operación utilizando bancos de filtros que permiten sub-bandas de frecuencia esencialmente idénticas para ambos esquemas en algunas realizaciones. Preferiblemente, en algunas realizaciones, uno y el mismo banco de filtros es usado para ambos esquemas. En este caso, los bancos de filtros de síntesis de DIRAC bancos de filtros de análisis de SAOC pueden ser evitados dando como resultado complejidad computacional reducida y retardo algorítmico reducido. Alternativamente, las realizaciones pueden usar dos bancos de filtros diferentes, que proporcionan parámetros en una rejilla de subbanda de frecuencia comparable. Los ahorros en cálculos de bancos de filtros de tales realizaciones puede no ser tan alta.
[0064] En segundo lugar, en realizaciones, en lugar de calcular explícitamente las señales fuentes separadas, el efecto de la separación puede ser obtenido por cálculos de dominio de parámetros solamente. En otras palabras, en realizaciones, el procesador 130 puede ser adaptado para estimar una información de energía, por ejemplo una energía o energía normalizada, para cada uno de por lo menos dos fuentes de audio separadas como las por lo menos dos medidas de fuente de audio separadas. En realizaciones, la energía mezcla descendente de DIRAC puede ser calculada.
[0065] En realizaciones, para cada posición de fuente de audio deseada/detectada, la ponderación direccional/peso de filtración puede ser determinada dependiendo de la dirección y posiblemente difusividad y características de separación propuestas. En realizaciones, la energía para cada fuente de audio de las señales separadas puede ser estimada del producto de la energía de mezcla descendente y el factor de ponderación de energía. En realizaciones, el procesador 130 puede ser adaptado para convertir las energías de las por lo menos dos fuentes de audio separadas a OLD de SAOC.
[0066] Algunas realizaciones pueden llevar a cabo el procedimiento de procesamiento aerodinámico descrito anteriormente sin involucrar ningún procesamiento de las señales de mezcla descendente reales. Adicionalmente, en algunas realizaciones, también se pueden calcular las coherencias de inter-objeto (IOC). Esto se puede obtener al considerar la ponderación direccional y las señales de mezcla descendente todavía en el dominio transformado.
[0067] En realizaciones, el procesador 130 puede ser apto para calcular la IOC para por lo menos dos fuentes de audio separadas. En general, el procesador (130) puede ser apto para calcular la IOC para dos de cada una de las por lo menos dos fuentes de audio separadas. En realizaciones, el proveedor de posición 120 puede comprender un detector que es apto para detectar las por lo menos dos posiciones espaciales de las por lo menos dos fuentes de audio espaciales en base a la señal convertida. Además, el proveedor/detector de posición 120 puede ser apto para detectar las por lo menos dos posiciones espaciales mediante una combinación de múltiples segmentos de tiempo de señal de entrada subsecuentes. El proveedor/detector de posición 120 puede también ser apto para detectar las por lo menos dos posiciones espaciales en base a una estimación de probabilidad máxima en cuanto a la densidad espacial de energía. El proveedor/detector de posición 120 puede ser apto para detectar una multiplicidad de posiciones de fuentes de audio espaciales en base a la señal convertida.
[0068] La figura 3 ilustra otra realización de un transcodificador de formato de audio 100. Similar a la realización ilustrada en la figura 2, el convertidor 110 es implementado como una etapa de “análisis de DirAC” 401. Además, el proveedor/detector de posición 120 es implementado como la etapa de “cálculo de número y posición de fuentes”
404. El procesador 130 comprende la etapa de “cálculo del factor de ponderación” 403, una etapa para calcular energías de fuentes separadas 402 y una etapa 405 para calcular OLD de SAOC y la corriente de bits.
[0069] Otra vez, en la realización ilustrada en la figura 3, la señal es adquirida usando un arreglo de micrófonos o alternativamente, un micrófono de formato B y es alimentada a la etapa de “análisis de DirAC” 401. Este análisis proporciona una o más señales de mezcla descendente e información de subbanda de frecuencia para cada cuadro de tiempo de procesamiento que incluye valores estimativos de la energía de mezcla descendente instantánea y dirección. Adicionalmente, la etapa de “análisis de DirAC” 401 puede proveer una medida de difusividad y/o una medida de la confiabilidad de los valores estimativos de dirección. A partir de esta información y posiblemente otros datos, tales como la energía de mezcla descendente instantánea, se pueden calcular valores estimativos del número de fuentes de audio y su posición por el proveedor/detector de posición 120, la etapa 404, respectivamente, por ejemplo, al combinar mediciones de varios cuadros de tiempo de procesamiento que son subsecuentes en el tiempo.
[0070] El procesador 130 puede ser apto para derivar un factor de ponderación direccional para cada fuente de audio y su posición en la etapa 403 a partir de la posición de fuente estimada y la dirección y opcionalmente, los valores de difusividad y/o confiabilidad del cuadro de tiempo procesado. Al combinar primero los valores estimativos de energía de mezcla descendente y los factores de ponderación en 402, los OLD de SAOC pueden se derivados en
405. También, se puede generar una corriente de bits de SAOC completa en algunas realizaciones. Adicionalmente, el procesador 130 puede ser apto para calcular los IOC de SAOC al considerar la señal de mezcla descendente y utilizar el bloque de procesamiento 405 en la realización ilustrada en la figura 3. En realizaciones, las señales de mezcla descendente y la información lateral de SAOC pueden luego ser almacenadas o transmitidas conjuntamente para la descodificación de SAOC o presentación.
[0071] La “medida de difusividad” es un parámetro que describe para cada binario de tiempo – frecuencia, que tan “difuso” está el campo de sonido. Sin pérdida de generalidad, es definido en el intervalo de [0, 1], en donde difusividad = 0 indica un campo de sonido perfectamente coherente, por ejemplo, una onda plana ideal, mientras que difusividad = 1 indica un campo de sonido plenamente difuso, por ejemplo, el obtenido con un gran número de fuentes de audio esparcidas espacialmente que emiten ruido mutuamente sin correlacionar. Se pueden emplear varias expresiones matemáticas como medida de difusividad. Por ejemplo, en Pulkki, V., “Directional audio coding in spatial sound reproduction and stereo upmixing,” in Proceedings of the AES 28th International Conference, pp. 251258, Piteå, Sweden, June 30 – July 2, 2006, la difusividad es calculada por medio de un análisis de energía de las señales de entrada, que comparan la intensidad activa con la energía de campo de sonido.
[0072] En lo siguiente, se describirá la medida de confiabilidad. Dependiendo del estimador de la dirección de llegada utilizado, es posible derivar una métrica que expresa que tan confiable es cada valor estimativo de dirección en cada binario de tiempo – frecuencia. Esta información puede ser aprovechada tanto en la determinación del número como posición de las fuentes, también como en el cálculo de los factores de ponderación en las etapas 403 y 404 respectivamente.
[0073] En lo siguiente, se detallarán realizaciones del procesador 130, esto es, también la etapa de “cálculo del número y posición de las fuentes” 404. El número y posición de las fuentes de audio para cada cuadro de tiempo pueden ya sea ser un conocimiento a priori, esto es una entrada externa o estimados automáticamente. Para el último caso, varios procedimientos son posibles. Por ejemplo, en algunas realizaciones se puede usar un estimador de probabilidad máxima en la densidad espacial de energía. El último puede calcular la densidad de energía de la señal de entrada con respecto a la dirección. Al suponer que las fuentes de sonido exhiben una distribución de von Mises, es posible estimar cuantas fuentes existen y en donde están ubicadas al escoger la solución con probabilidad más alta. Una distribución espacial de energía ejemplar es ilustrada en la figura 4a.
[0074] La figura 4a ilustra una vista gráfica de una densidad espacial de energía, ejemplificada por dos fuentes de audio. La figura 4a muestra la energía relativa en dB en las ordenadas y el ángulo azimuth en las abscisas. Además, la figura 4a ilustra tres señales diferentes, una representa la densidad espacial de energía real, que es caracterizada por una línea delgada y por ser ruidosa. Además, la línea gruesa ilustra la densidad espacial de energía teórica de una primera fuente y la línea de puntos ilustra lo mismo para una segunda fuente. El modelo que se ajusta major a la observación comprende dos fuentes de audio ubicadas a +45° y -135°, respectivamente. En otros modelos, la elevación puede también estar disponible. En tales realizaciones, la densidad espacial de energía se convierte en una función tridimensional.
[0075] En lo siguiente, se proveen más detalles en cuanto a una implementación de una realización adicional del procesador 130, especialmente en la etapa de cálculo de peso 403. Este bloque de procesamiento calcula los pesos para cada objeto a ser extraído. Los pesos son calculados en base a los datos provistos por en análisis de DirAC en 401, junto con la información en cuanto al número de fuentes y su posición de 404. La información puede ser procesada conjuntamente para todas las fuentes o separadamente, de tal manera que los pesos para cada objeto son calculados independientemente de los otros.
[0076] Los pesos para los i-ésimos objetos son definidos para cada binario de tiempo y frecuencia, de tal manera que si gi(k,n) denota el peso para el índice de frecuencia k y el índice de tiempo n, el espectro complejo de la señal de mezcla descendente para el i-ésimo objeto puede ser calculado simplemente por
Wi(k,n)=W(k,n)× Yi (k,n).
[0077] Como ya se mencionó, las señales obtenidas de tal manera podrían ser enviadas a un codificador de SAOC. Sin embargo, las realizaciones pueden evitar totalmente esta etapa al calcular los parámetros de SAOC de los pesos Yi (k,n) directamente.
[0078] En lo siguiente, se explicará brevemente como se pueden calcular los pesos Yi (k,n) en algunas realizaciones. Si no se especifica de otra manera, todas las cantidades en lo siguiente dependen de (k, n), es decir los índices de frecuencia y tiempo.
[0079] Se puede suponer que la difusividad Y o medida de confiabilidad, está definida en el intervalo [0, 1], en donde Y = 1 corresponde a una señal totalmente difusa. Además, q denota la dirección de llegada, en el siguiente ejemplo denota el ángulo azimuth. La extensión al espacio 3D es directa.
[0080] Además, Yi denota el peso con el cual la señal de mezcla descendente es escalada para extraer la señal de audio del i-ésimo objeto, W(k, n) denota el espectro complejo de la señal de mezcla descendente y Wi(k,n) denota el espectro complejo del i-ésimo objeto extraído.
[0081] En una primera realización, se define una función bidimensional en el dominio (e,'). Una realización simple utiliza una función Gaussiana 2D g(e,') , de acuerdo con
e y (2la función Gaussiana, esto es sus variancias con respecto a ambas dimensiones. A es un factor de amplitud que se puede suponer igual a 1 en lo siguiente.
en donde a es la dirección en donde el objeto está ubicado y (2 ' son parámetros que determinan el ancho de
[0082] El peso Yi (k,n) puede ser determinado al calcular la ecuación anterior para los valores de e (k,n) y '(k,n) 15 obtenidos del procesamiento de DirAC, esto es
[0083] Una función ejemplar es mostrada en la figura 4b. En la figura 4b, se puede ver que se presentan pesos significativos para valores de difusividad bajos. Para la figura 4b, se ha supuesto a=-n/4 rad (o -45deg), y (2 e=0,25 y (2 '=0,2.
20 [0084] El peso es más grande para ' (k,n)=0 y e=a. Para direcciones más alejadas de a, también como para una difusividad más alta, el peso disminuye. Al cambiar los parámetros de g(e (k,n), '(k,n)) varias funciones g(e (k,n), '(k,n)) pueden ser diseñadas, que extraen objetos de diferentes direcciones.
[0085] Si los pesos obtenidos de diferentes objetos conducen a una energía total que es más grande que la presente en la señal de mezcla descendente, esto es, si
entonces es posible actuar sobre los factores de multiplicación A en la función g(e (k,n), '(k,n)) para forzar que la suma de los cuadrados sea menor o igual a 1.
[0086] En una segunda realización, la ponderación para la parte difusa y parte no difusa de la señal de audio se puede llevar a cabo con diferentes ventanas de ponderación. Se pueden encontrar más detalles en Markus
30 Kallinger, Giovanni Del Galdo, Fabian Kuech, Dirk Mahne, Richard Schultz-Amling, “SPATIAL FILTERING USING DIRECTIONAL AUDIO CODING PARAMETERS”, ICASSP 09.
[0087] El espectro del i-ésimo objeto puede ser obtenido mediante
35 en donde Yi, di y Yi, co son los pesos para la parte difusa y no difusa (coherente), respectivamente. La ganancia para la parte no difusa puede ser obtenida de una ventana unidimensional tal como la siguiente
= 0 en los demás casos
en donde B es el ancho de la ventana. Una ventana ejemplar para a=-n/4 , B=n/4 se ilustra en la figura 4c.
[0088] La ganancia para la parte difusa Yi, di, puede ser obtenida de una manera similar. Ventanas apropiadas son por ejemplo cardioides, subcardioides dirigidas hacia a o simplemente un patrón omnidireccional. Una vez calculadas las ganancias Yi, di y Yi, co, el peso Yi puede ser obtenido simplemente como
de tal manera que
[0089] Si los pesos obtenidos de diferentes objetos conducen a una energía total que es más grande que la 10 presente en la señal de mezcla descendente, esto es, si
entonces es posible reescalar las ganancias de conformidad. Este bloque de procesamiento puede también proveer los pesos para un objeto de fondo (residual) adicional, para el cual la energía es luego calculada en el bloque 402. El objeto de fondo contiene la energía restante que no ha sido asignada a ningún otro objeto. La energía
15 puede ser asignada al objeto de fondo también para reflejar la incertidumbre de los valores estimativos de dirección. Por ejemplo, la dirección de llegada para un cierto binario de tiempo – frecuencia es estimado para ser exactamente dirigido hacia un cierto objeto. Sin embargo, ya que el valor estimativo no está libre de error, una parte pequeña de energía puede ser asignada al objeto de fondo.
[0090] En los siguiente, se proveen detalles adicionales en cuanto a una realización adicional del procesador 130,
20 especialmente en la etapa de “calcular energía de fuentes separadas” – 402. Este bloque de procesamiento toma los pesos calculados por 403 y los usa para calcular las energías de cada objeto. Si Yi (k,n) denota el peso del i-ésimo objeto para el binario de tiempo-frecuencia definido por (k, n), entonces la energía Ei(k,n) es simplemente
[0091] En donde W(k, n) es la representación de tiempo-frecuencia compleja de la señal de mezcla descendente.
25 [0092] Idealmente, la suma de las energías de todos los objetos es igual a la energía presente en la señal de mezcla descendente, es decir
en donde N es el número de objetos.
[0093] Esto se puede obtener de diferentes maneras. Una realización puede comprender usar un objeto residual,
30 como ya se mencionó en el contexto de cálculo del factor de ponderación. La función del objeto residual es representar cualquier energía faltante en el equilibrio global de energía de los objetos de salida, de tal manera que su energía total es igual a la energía de mezcla descendente en cada mosaico de tiempo/frecuencia.
[0094] En otras palabras, en algunas realizaciones, el procesador 130 puede ser adaptado para determinar adicionalmente un factor de ponderación para un objeto de fondo adicional, en donde los factores de ponderación
35 son de tal manera que la suma de las energías asociadas con las por lo menos dos fuentes de audio separadas y el objeto de fondo adicional igualan la energía de la representación de señal convertida.
[0095] Un mecanismo relacionado es definido en el estándar ISO/IEC, “MPEG audio technologies – Part 2: Spatial Audio Object Coding (SAOC),” ISO/IECJTC1/SC29/WG11 (MPEG) FCD 23003-2), en cuanto a como asignar cualquier energía faltante. Otra estrategia ejemplar puede comprender reescalar los pesos apropiadamente para
40 obtener el equilibrio de energía global deseado.
[0096] En general, si la etapa 403 provee pesos para el objeto de fondo, esta energía puede ser mapeada al objeto residual. En lo siguiente se proveen más detalles en cuanto al cálculo de los OLD de SAOC y opcionalmente IOC en la etapa de corriente de bits 405, como se pueden llevar a cabo en algunas realizaciones.
[0097] Este bloque de procesamiento procesa además la energía de los objetos de audio y los convierte a parámetros compatibles con SAOC, esto es OLD. Para este fin, las energías de objetos son normalizadas con respecto a la energía del objeto con la energía más alta resultante en valores de energía relativos para cada mosaico de tiempo/frecuencia. Estos parámetros pueden ya sea ser utilizados directamente para el procesamiento del descodificador de SAOC subsecuente o pueden ser cuantificados y transmitidos/almacenados como parte de una corriente de bits de SAOC. Similarmente, los parámetros de IOC pueden ser emitidos o transmitidos/almacenados como parte de una corriente de bits de SAOC.
[0098] Dependiendo de ciertos requerimientos de implementación de los procedimientos de la invención, los procedimientos de la invención pueden ser implementados en elementos físicos o en elementos de programación. La implementación puede ser efectuada usando un medio de almacenamiento digital, en particular un disco, un DVD
o un CD que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que cooperan con un sistema de computadora programable, de tal manera que los procedimientos de la invención son efectuados. En general, por consiguiente, la presente invención es un producto de programa de computadora con códigos de programa almacenados en un portador que se puede leer por la máquina, los códigos de programa son operativos para efectuar los procedimientos de la invención cuando el producto de programa de computadora se ejecuta en una computadora. En otras palabras, los procedimientos de la invención son por consiguiente un programa de computadora que tiene códigos de programa para efectuar por lo menos uno de los procedimientos de la invención, cuando el programa de computadora se ejecuta en una computadora.
[0099] En tanto que lo anterior ha sido particularmente mostrado y descrito con referencia a realizaciones particulares de la misma, se comprenderá por aquellos experimentados en el arte que varios otros cambios en forma y detalle se pueden hacer sin desviarse del alcance de la misma.
[0100] El alcance de protección se define mediante las reivindicaciones adjuntas.

Claims (12)

  1. REIVINDICACIONES
    1. Un transcodificador de formato de audio (100) para transcodificar una señal de audio de entrada, la señal de audio de entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende:
    un convertidor (110) para convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene una representación de señal convertida y una dirección de llegada de señal convertida;
    un proveedor de posición (120) para proveer por lo menos dos posiciones espaciales de por lo menos dos fuentes de audio espaciales y
    un procesador (130) para procesar la representación de señal convertida en base a las por lo menos dos posiciones espaciales y la dirección de llegada de señal convertida para obtener por lo menos dos medidas de fuente de audio separadas,
    en donde el procesador (130) es apto para determinar un factor de ponderación para cada una de las por lo menos dos fuentes de audio separadas y
    en donde el procesador (130) es apto para procesar la representación de señal convertida en términos de por lo menos dos filtros espaciales (311, 322, 31N) que dependen de los factores de ponderación para aproximar por lo menos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lo menos dos medidas de audio separadas o en donde el procesador (130) es apto para estimar (402) una información de energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación de señal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.
  2. 2.
    El transcodificador de formato de audio (100) de la reivindicación 1 para la transcodificación de una señal de entrada de acuerdo con una señal codificada de audio direccional (DirAc), una señal de formato B o una señal de un arreglo de micrófonos.
  3. 3.
    El transcodificador de formato de audio (100) de una de las reivindicaciones precedentes, en el que el convertidor
    (110) es apto para convertir la señal de entrada en términos de un número de bandas/subbandas de frecuencia y/o segmentos/cuadros de tiempo.
  4. 4.
    El transcodificador de formato de audio (100) de la reivindicación 3, en el que el convertidor (110) es apto para convertir la señal de audio de entrada a la señal convertida que comprende además una medida de difusividad y/o confiabilidad por banda de frecuencia.
  5. 5.
    El transcodificador de formato de audio (100) de la reivindicación 1, que comprende además un codificador de codificación de objeto de audio espacial (SAOC) para codificar las por lo menos dos señales fuente de audio separadas para obtener una señal codificada de SAOC que comprende un componente de mezcla descendente de SAOC y un componente de información lateral de SAOC.
  6. 6.
    El transcodificador de formato de audio (100) de la reivindicación 1, en el que el procesador (130) es apto para convertir las energías de las por lo menos dos fuentes de audio separadas a diferencias a nivel de objeto de SAOC (SAOC-OLD).
  7. 7.
    El transcodificador de formato de audio (100) de la reivindicación 6, en el que el procesador (130) es apto para calcular una coherencia de inter-objeto (IOC) para las por lo menos dos fuentes de audio separadas.
  8. 8.
    El transcodificador de formato de audio (100) de una de las reivindicaciones 3 a 7, en el que el proveedor de posición (120) comprende un detector para detectar las por lo menos dos posiciones espaciales de las por lo menos dos fuentes de audio espaciales en base a la señal convertida, en donde el detector es apto para detectar las por lo menos dos posiciones espaciales mediante una combinación de múltiples segmentos/cuadros de tiempo de señal de entrada subsecuentes.
  9. 9.
    El transcodificador de formato de audio (100) de la reivindicación 8, en el que el detector es apto para detectar las por lo menos dos posiciones espaciales en base a una estimación de probabilidad máxima en cuanto a una densidad espacial de energía de la señal convertida.
  10. 10.
    El transcodificador de formato de audio (100) de una de las reivindicaciones 1 a 9, en el que el procesador (130) es apto para determinar además un factor de ponderación para un objeto de fondo adicional, en donde los factores de ponderación son de tal manera que la suma de las energías asociadas con las por lo menos dos fuentes de audio separadas y el objeto de fondo adicional igualan la energía de la representación de señal convertida.
  11. 11.
    Un procedimiento para la transcodificación de una señal de audio de entrada, la señal de audio de entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende las etapas de:
    convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene una representación de señal convertida y la dirección de llegada de señal convertida;
    proveer por lo menos dos posiciones espaciales de las por lo menos dos fuentes de audio espaciales y
    procesar la representación de señal convertida en base a las por lo menos dos posiciones espaciales para obtener 5 las por lo menos dos medidas fuente de audio separadas,
    en donde la etapa de procesamiento comprende:
    determinar (303) un factor de ponderación para cada una de las por lo menos dos fuentes de audio separadas y
    procesar la representación de señal convertida usando por lo menos dos filtros espaciales (311, 312, 31N) que dependen de los factores de ponderación para aproximar por lo menos dos fuentes de audio aisladas con por lo
    10 menos dos señales fuente de audio separadas como las por lo menos dos medidas fuente de audio separadas o estimar (402) una información de energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación de la señal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.
  12. 12. Un programa de computadora adaptado para efectuar el procedimiento de la reivindicación 11, cuando el 15 programa de computadora se ejecuta en una computadora o un procesador.
ES10718175T 2009-05-08 2010-05-07 Tanscodificador de formatos de audio Active ES2426136T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09006291A EP2249334A1 (en) 2009-05-08 2009-05-08 Audio format transcoder
EP09006291 2009-05-08
PCT/EP2010/056252 WO2010128136A1 (en) 2009-05-08 2010-05-07 Audio format transcoder

Publications (1)

Publication Number Publication Date
ES2426136T3 true ES2426136T3 (es) 2013-10-21

Family

ID=41170090

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10718175T Active ES2426136T3 (es) 2009-05-08 2010-05-07 Tanscodificador de formatos de audio

Country Status (13)

Country Link
US (1) US8891797B2 (es)
EP (2) EP2249334A1 (es)
JP (1) JP5400954B2 (es)
KR (1) KR101346026B1 (es)
CN (1) CN102422348B (es)
AU (1) AU2010244393B2 (es)
BR (1) BRPI1007730A2 (es)
CA (1) CA2761439C (es)
ES (1) ES2426136T3 (es)
MX (1) MX2011011788A (es)
PL (1) PL2427880T3 (es)
RU (1) RU2519295C2 (es)
WO (1) WO2010128136A1 (es)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
CA2790956C (en) * 2010-02-24 2017-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
ES2643163T3 (es) * 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
RU2014133903A (ru) * 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
US9268522B2 (en) 2012-06-27 2016-02-23 Volkswagen Ag Devices and methods for conveying audio information in vehicles
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9955277B1 (en) * 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
EP2717265A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
KR101468357B1 (ko) * 2014-02-17 2014-12-03 인하대학교 산학협력단 트랜스 코딩 서버의 cpu 전력 관리 방법
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3318070B1 (en) 2015-07-02 2024-05-22 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
KR102614577B1 (ko) 2016-09-23 2023-12-18 삼성전자주식회사 전자 장치 및 그 제어 방법
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
GB2559765A (en) 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
WO2018208560A1 (en) * 2017-05-09 2018-11-15 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
PT3692523T (pt) * 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
WO2019091575A1 (en) * 2017-11-10 2019-05-16 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
JP6888172B2 (ja) * 2018-01-18 2021-06-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
WO2019170955A1 (en) * 2018-03-08 2019-09-12 Nokia Technologies Oy Audio coding
JP7321170B2 (ja) 2018-04-16 2023-08-04 ドルビー ラボラトリーズ ライセンシング コーポレイション 方向性音源のエンコードおよびデコードのための方法、装置およびシステム
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
SG11202007627RA (en) 2018-10-08 2020-09-29 Dolby Laboratories Licensing Corp Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
WO2020084170A1 (en) * 2018-10-26 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Directional loudness map based audio processing
JP7311602B2 (ja) * 2018-12-07 2023-07-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
BR112021014135A2 (pt) * 2019-01-21 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sinal de áudio codificado, aparelho e método para codificação de uma representação de áudio espacial ou aparelho e método para decodificação de um sinal de áudio codificado
EP3912365A1 (en) * 2019-04-30 2021-11-24 Huawei Technologies Co., Ltd. Device and method for rendering a binaural audio signal
BR112021024735A2 (pt) * 2019-06-12 2022-01-18 Fraunhofer Ges Forschung Ocultação de perda de pacote para codificação de áudio espacial com base em dirac
CN110660401B (zh) * 2019-09-02 2021-09-24 武汉大学 一种基于高低频域分辨率切换的音频对象编解码方法
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
BRPI0412889B1 (pt) * 2003-07-21 2019-09-10 Fraunhofer Ges Forschung métodos para a conversão, combinação e decodificação, aparelhos para conversão e para a decodificação, e meio legível por computador
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US20070250308A1 (en) * 2004-08-31 2007-10-25 Koninklijke Philips Electronics, N.V. Method and device for transcoding
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
FI20055261A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Akustisten muuttajien kokoonpano, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
EP1890456B1 (en) * 2006-08-15 2014-11-12 Nero Ag Apparatus for transcoding encoded content
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치

Also Published As

Publication number Publication date
BRPI1007730A2 (pt) 2018-03-06
EP2249334A1 (en) 2010-11-10
RU2519295C2 (ru) 2014-06-10
CA2761439A1 (en) 2010-11-11
JP2012526296A (ja) 2012-10-25
EP2427880A1 (en) 2012-03-14
PL2427880T3 (pl) 2014-01-31
CN102422348B (zh) 2013-09-25
AU2010244393B2 (en) 2013-02-14
EP2427880B1 (en) 2013-07-31
RU2011145865A (ru) 2013-05-27
MX2011011788A (es) 2011-11-29
US8891797B2 (en) 2014-11-18
CN102422348A (zh) 2012-04-18
CA2761439C (en) 2015-04-21
AU2010244393A1 (en) 2011-11-24
US20120114126A1 (en) 2012-05-10
KR101346026B1 (ko) 2013-12-31
WO2010128136A1 (en) 2010-11-11
KR20120013986A (ko) 2012-02-15
JP5400954B2 (ja) 2014-01-29

Similar Documents

Publication Publication Date Title
ES2426136T3 (es) Tanscodificador de formatos de audio
ES2643163T3 (es) Aparato y procedimiento para codificación de audio espacial basada en geometría
US8023660B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
TWI555412B (zh) 整合幾何空間音源編碼串流之設備及方法
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
JP5455657B2 (ja) 音声の再現を高めるための方法および装置
KR101296757B1 (ko) 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
US20210343300A1 (en) Apparatus and Method for Encoding a Spatial Audio Representation or Apparatus and Method for Decoding an Encoded Audio Signal Using Transport Metadata and Related Computer Programs
JP2022008492A (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
RU2792050C2 (ru) Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы
Alexandridis et al. Research Article Capturing and Reproducing Spatial Audio Based on a Circular Microphone Array