ES2871224T3 - Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo - Google Patents

Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo Download PDF

Info

Publication number
ES2871224T3
ES2871224T3 ES12743261T ES12743261T ES2871224T3 ES 2871224 T3 ES2871224 T3 ES 2871224T3 ES 12743261 T ES12743261 T ES 12743261T ES 12743261 T ES12743261 T ES 12743261T ES 2871224 T3 ES2871224 T3 ES 2871224T3
Authority
ES
Spain
Prior art keywords
audio
metadata
speaker
monophonic
playback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12743261T
Other languages
English (en)
Inventor
Charles Q Robinson
Nicolas R Tsingos
Christophe Chabanne
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2871224T3 publication Critical patent/ES2871224T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Liquid Crystal Substances (AREA)

Abstract

Un sistema para procesar señales de audio, que comprende un componente (106) de autoría configurado para recibir una pluralidad de señales de audio de un programa de audio, definiéndose un programa de audio como un conjunto completo de canales de altavoz y/o canales de objeto y metadatos asociados que describe una presentación de audio espacial deseada, en la que cada canal de altavoz y cada canal de objeto comprende una señal de audio; generar una mezcla (208) de audio adaptativo para el programa de audio que comprende una pluralidad de torrentes monofónicos de audio y uno o más conjuntos de metadatos asociados con cada uno de la pluralidad de torrentes monofónicos de audio y que especifica una ubicación de reproducción de un torrente respectivo de audio monofónico, que incluye un primer conjunto de metadatos y un segundo conjunto de metadatos asociado con uno o más torrentes de la pluralidad de torrentes monofónicos de audio; en el que al menos uno de la pluralidad de torrentes monofónicos de audio se identifica como audio basado en canal, y en el que los otros torrentes, incluido al menos uno, de la pluralidad de torrentes monofónicos de audio se identifican como audio basado en objeto, y en el que la ubicación de reproducción del audio basado en canal comprende designaciones de altavoz de los altavoces (801, 802, 804, 806, 808, 810, 816) en una matriz de altavoces, y en el que la ubicación de reproducción del audio basado en objeto comprende una ubicación en el espacio tridimensional con relación a un entorno de reproducción que contiene la matriz de altavoces; y en el que adicionalmente el primer conjunto de metadatos se aplicará a uno o más de la pluralidad de torrentes monofónicos de audio para una primera condición del entorno de reproducción, y el segundo conjunto de metadatos se aplicará a uno o más de la pluralidad de torrentes monofónicos de audio para una segunda condición del entorno de reproducción; y encapsular la pluralidad de torrentes monofónicos de audio y los al menos dos conjuntos de metadatos en un torrente de bits para su transmisión a un sistema (110) de renderización configurado para renderizar la pluralidad de torrentes monofónicos de audio para una pluralidad de alimentaciones de altavoces correspondientes a los altavoces (801, 802, 804, 806, 808, 810, 816) del entorno de reproducción de acuerdo con los al menos dos conjuntos de metadatos basados en una condición del entorno de reproducción.

Description

DESCRIPCIÓN
Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo
Campo técnico
Una o más implantaciones se refieren en general al procesamiento de señales de audio, y, más específicamente, al procesamiento de audio basado en canal y objetos híbridos para su uso en el cine, el hogar y otros entornos.
Antecedentes
No debe asumirse que el tema que se analice en la sección de antecedentes sea de técnica anterior simplemente por su mención en la sección de antecedentes. De manera similar, no se debe suponer que un problema mencionado en la sección de antecedentes o asociado con el tema de la sección de antecedentes haya sido anteriormente revisado en la técnica anterior. Un tema en la sección de antecedentes representa simplemente diferentes enfoques, que en sí mismos pueden ser también invenciones.
Desde la introducción del sonido en las películas ha habido una evolución constante de la tecnología utilizada para capturar la intención artística del creador para la banda sonora de la película y reproducirla con precisión en un entorno cinematográfico. Un papel fundamental del sonido cinematográfico es apoyar el argumento que se muestra en la pantalla. Las pistas de sonido de cine típicas comprenden muchos elementos de sonido diferentes correspondientes a elementos e imágenes en la pantalla, diálogos, ruidos y efectos de sonido que emanan de diferentes elementos en pantalla y se combinan con música de fondo y efectos ambientales para crear en el público una experiencia integral. La intención artística de los creadores y productores representa su deseo de que estos sonidos se reproduzcan de una manera que se corresponda lo más certeramente con lo que se muestra en la pantalla con respecto a la posición, intensidad, movimiento y otros parámetros similares a tener en cuenta en la fuente de sonido.
La autoría, distribución y reproducción cinematográficas actuales adolecen de limitaciones que restringen la creación de audios que de verdad proporcionen una experiencia de inmersión y realista. Los sistemas de audio tradicionales basados en canales envían contenido de audio en forma de alimentación de altavoces a altavoces individuales en un entorno de reproducción, tales como los sistemas estéreo y 5.1. La introducción del cine digital ha creado nuevos estándares para el sonido en la película, tales como la incorporación de hasta 16 canales de audio para permitir una mayor creatividad a los creadores de contenido y una experiencia auditiva más envolvente y realista al público. La introducción de los sistemas de sonido envolvente 7.1 ha proporcionado un nuevo formato que aumenta el número de canales de sonido envolvente al dividir los canales de sonido envolvente derecho e izquierdo existentes en cuatro zonas, aumentando de este modo el alcance, para los diseñadores de sonido y mezcladores, de controlar la posición de los elementos de audio en la sala de cine.
Para mejorar adicionalmente la experiencia del oyente, la reproducción de sonido en entornos virtuales tridimensionales se ha convertido en un área de mayor investigación y desarrollo. La presentación espacial del sonido utiliza objetos de audio, que son señales de audio con descripciones paramétricas asociadas de fuente, de posición de fuente aparente (por ejemplo, coordenadas 3D), ancho de fuente aparente y otros parámetros. El audio basado en objeto se utiliza cada vez más para muchas aplicaciones multimedia actuales, tales como películas digitales, videojuegos, simuladores y vídeo 3D.
Es fundamental ir más allá de la alimentación de altavoces tradicional y del audio basado en canal como medio para distribuir audio espacial, y ha provocado un considerable interés la descripción del audio basada en modelos que promete al oyente/expositor la libertad de seleccionar la configuración de reproducción que se adapte a sus necesidades individuales o a su presupuesto, con el audio renderizado específicamente para la configuración elegida. Con alto nivel, existen cuatro formatos principales de descripción de audio espacial en la actualidad: alimentación de altavoz, en el que el audio se describe como señales destinadas a los altavoces en posiciones nominales de altavoz; alimentación de micrófono, en el que el audio se describe como señales capturadas por micrófonos virtuales o reales en una matriz predefinida; descripción basada en modelos, en el que el audio se describe en términos de una secuencia de eventos de audio en posiciones definidas; y binaural, en el que el audio es descrito por las señales que llegan a los oídos de los oyentes. Estos cuatro formatos de descripción a menudo se asocian con una o más tecnologías de renderización que convierten las señales de audio en alimentación de altavoz. Las tecnologías de renderización actuales incluyen panoramización, en la que el torrente de audio se convierte en alimentación de altavoz usando un conjunto de leyes de panoramización y posiciones de altavoz conocidas o asumidas (típicamente renderizadas antes de la distribución); Ambisonics, en la que las señales del micrófono se convierten en alimentación para una matriz escalable de altavoces (típicamente renderizados después de la distribución); WFS (síntesis de campo de ondas) en la que los eventos de sonido se convierten en las señales de altavoz apropiadas para sintetizar el campo de sonido (siendo típicamente renderizadas después de la distribución); y binaural, en la que las señales binaurales L/R (izquierda/derecha) se suministran al oído L/R, típicamente utilizando auriculares, pero también mediante el uso de altavoces y la anulación de diafonía (renderizada antes o después de la distribución). De estos formatos, el formato de alimentación por altavoz es el más común, porque es simple y efectivo. Los mejores resultados sonoros (más precisos, más fiables) se logran mezclando/monitorizando y distribuyendo a los altavoces la alimentación directamente, ya que no hay procesamiento entre el creador de contenido y el oyente. Si el sistema de reproducción se conoce de antemano, una descripción de la alimentación del altavoz proporciona generalmente la mayor fidelidad. Sin embargo, en muchas aplicaciones prácticas, se desconoce el sistema de reproducción. La descripción basada en modelos se considera la más adaptable porque no asume conceptos sobre la tecnología de renderización, y, por lo tanto, se aplica más fácilmente a cualquier tecnología de renderización. Si bien la descripción basada en modelos captura de manera eficiente la información espacial, se vuelve muy ineficaz a medida que aumenta el número de fuentes de audio.
Durante muchos años, los sistemas de cine han presentado canales de pantalla discretos en forma de canales izquierdo, central, derecho y, ocasionalmente, "interior izquierdo" e "interior derecho". Estas fuentes discretas tienen generalmente suficiente respuesta de frecuencia y manejo de potencia para permitir que los sonidos se coloquen con precisión en diferentes áreas de la pantalla y para permitir la coincidencia de timbres cuando los sonidos se mueven o se panoramizan entre ubicaciones. Los desarrollos recientes para mejorar la experiencia del oyente intentan reproducir con precisión la ubicación de los sonidos con relación al oyente. En una configuración 5.1, las 'zonas' envolventes comprenden una serie de altavoces, todos los cuales llevan la misma información de audio dentro de cada zona envolvente izquierda o envolvente derecha. Tales matrices pueden ser efectivas con efectos de envolventes difusos o "ambientales"; sin embargo, en la vida cotidiana, muchos efectos de sonido se originan en fuentes puntuales colocadas al azar. Por ejemplo, en un restaurante, la música ambiental puede reproducirse aparentemente desde todos lados, pero los sonidos sutiles pero discretos se originan en puntos específicos: una persona charlando desde un lugar, el ruido de un cuchillo en un plato desde otro. Ser capaz de colocar tales sonidos de manera discreta alrededor del auditorio puede añadir una sensación más pronunciada de realismo sin caer en lo obvio. Los sonidos que vienen de arriba también son un componente importante de la definición de sonido envolvente. En el mundo real, los sonidos se propagan en todas direcciones y no siempre en un único plano horizontal. Se puede conseguir una mayor sensación de realismo si se puede escuchar sonido procedente de arriba, en otras palabras, desde el "hemisferio superior". Sin embargo, los sistemas actuales no ofrecen una reproducción de sonido verdaderamente precisa para diferentes tipos de audio en una variedad de entornos de reproducción diferentes. Se requiere un gran esfuerzo de procesamiento, conocimiento y configuración de los entornos de reproducción reales utilizando los sistemas existentes para intentar una representación precisa de los sonidos específicos de la ubicación, lo que hace que los sistemas actuales no sean prácticos para la mayoría de las aplicaciones.
Lo que se necesita es un sistema que soporte múltiples canales de pantalla, dando como resultado una mayor definición y una coherencia audiovisual mejorada para los sonidos o diálogos en pantalla, y la capacidad de posicionar con precisión las fuentes en cualquier lugar de las zonas envolventes para mejorar la transición audiovisual de la pantalla a la sala. Por ejemplo, si un personaje en la pantalla mira dentro de la sala hacia una fuente de sonido, el ingeniero de sonido ("el mezclador") debe tener la capacidad de posicionar con precisión el sonido para que coincida con la línea de visión del personaje y el efecto sea consistente para el público en su totalidad. Sin embargo, en una mezcla de sonido envolvente tradicional 5.1 o 7.1, el efecto depende en gran medida de la posición del oyente en el asiento, lo que es una desventaja para la mayoría de los entornos de audición a gran escala. El aumento de la resolución envolvente crea nuevas oportunidades para usar el sonido de una manera centrada en la sala en contraste con el enfoque tradicional, donde el contenido se crea asumiendo un sólo oyente en el "punto óptimo".
Aparte de las cuestiones espaciales, los actuales sistemas multicanal del estado de la técnica sufren con respecto al timbre. Por ejemplo, la calidad tímbrica de algunos sonidos, tales como el estallido de vapor de una tubería rota, puede verse afectada por ser reproducida por una matriz de altavoces. La capacidad de dirigir sonidos específicos a un sólo altavoz le da al mezclador la oportunidad de eliminar los artefactos de la reproducción de matriz y ofrecer una experiencia más realista al público. Tradicionalmente, los altavoces de sonido envolvente no soportan el mismo intervalo completo de frecuencia y nivel de audio que soportan los canales de pantalla grande. Históricamente, este hecho ha dado problemas a los mezcladores, al reducir su capacidad para mover libremente sonidos de intervalo completo de la pantalla a la sala. Como resultado, los propietarios de las salas de cine no se han sentido obligados a actualizar la configuración de sus canales de sonido envolvente, lo que impide la adopción generalizada de instalaciones de mayor calidad. El documento US2010/0135510A1 describe un aparato para generar y reproducir contenidos de audio basados en objetos.
El documento US2006/0206221 describe un sistema para formatear contenido de sonido multimodo y metadatos. En particular, el documento US2006/0206221A1 divulga un sistema para procesar señales de audio que comprende un componente de autoría configurado para recibir una pluralidad de señales de audio, definiéndose un programa de audio como el conjunto completo de canales de altavoz y/o de canales de objeto y metadatos asociados que describe una presentación de audio espacial deseada. El componente de autoría está configurado para generar una mezcla de audio para el programa de audio que comprende una pluralidad de torrentes monofónicos de audio y un conjunto de metadatos asociados con cada elemento de la pluralidad de torrentes monofónicos de audio y que especifica una ubicación de reproducción de un torrente respectivo de audio monofónico. El documento US2006/0206221 describe un motor de renderización multimodo que permite prescribir diversas configuraciones de sonido. Estos sistemas multimodo pueden requerir contenido multimodo que puede incluir metadatos para informar e instruir a un sistema de reproducción dado con capacidades de inteligencia para comprender y actualizar las instrucciones de metadatos que también pueden incluir diversos tipos de configuraciones por defecto para sistemas de reproducción no inteligentes.
Breve sumario de las realizaciones
La invención está definida por un sistema para procesar señales de audio que comprende un componente de autoría como se define en la reivindicación independiente 1, un sistema para procesar señales de audio que comprende un sistema de renderización como se define en la reivindicación independiente 2, un método para autorizar señales de audio como se define en la reivindicación independiente 14, y un método para renderizar la señal de audio como se define en la reivindicación independiente 15.
Se describen sistemas y métodos para un formato de sonido de cine y un sistema de procesamiento que incluyen un nuevo trazado de altavoces (una configuración de canal) y un formato de descripción espacial asociado. Se definen un sistema y un formato de audio adaptativo que soporta múltiples tecnologías de renderización. Los torrentes de audio se transmiten junto con metadatos que describen la "intención del mezclador", incluyendo la posición deseada del torrente de audio. La posición se puede expresar como un canal con nombre (desde dentro de la configuración de canal predefinida) o como información de posición tridimensional. Este formato de canales más objetos combina métodos óptimos de descripción de escenas de audio basados en canales y en modelos. Los datos de audio para el sistema de audio adaptativo comprenden una serie de torrentes monofónicos de audio independientes. Cada torrente tiene asociados metadatos que especifican si el torrente es un torrente basado en canal o en objetos. Los torrentes basados en canales tienen información de renderización codificada por medio del nombre del canal; y los torrentes basados en objetos tienen información de ubicación codificada mediante expresiones matemáticas codificadas en metadatos asociados adicionales. Los torrentes de audio independientes originales se empaquetan como un único torrente de bits en serie que contiene todos los datos de audio. Esta configuración permite que el sonido se renderice de acuerdo con un marco alocéntrico de referencia, en el que la ubicación de renderización de un sonido se basa en las características del entorno de reproducción (por ejemplo, en el tamaño de la sala, la forma, etc.) para corresponder a la intención del mezclador. Los metadatos de posición del objeto contienen el marco alocéntrico apropiado de la información de referencia necesaria para reproducir el sonido correctamente utilizando las posiciones de altavoz disponibles en una sala que está configurada para reproducir el contenido de audio adaptativo. Esto permite que el sonido se mezcle de manera óptima para un entorno de reproducción particular que puede ser diferente del entorno de mezcla experimentado por el ingeniero de sonido.
El sistema de audio adaptativo mejora la calidad de audio en diferentes habitaciones a través de beneficios tales como una mejor ecualización de la sala y una gestión envolvente de graves, de modo que el mezclador pueda acceder libremente a los altavoces (ya sea en pantalla o fuera de pantalla) sin tener que pensar en la coincidencia tímbrica. El sistema de audio adaptativo agrega la flexibilidad y la potencia de los objetos de audio dinámicos a los flujos de trabajo tradicionales basados en canales. Estos objetos de audio permiten a los creadores controlar elementos de sonido discretos independientemente de las configuraciones específicas de los altavoces de reproducción, incluidos los altavoces superiores. El sistema introduce también nuevas eficiencias en el proceso de postproducción, permitiendo a los ingenieros de sonido reflejar de manera eficiente toda su intención, y monitorizar después en tiempo real, o generar automáticamente, versiones de sonido envolvente 7.1 y 5.1.
El sistema de audio adaptativo simplifica la distribución encapsulando la esencia del audio y la intención artística en un único archivo de pista dentro de un procesador digital de cine, que se puede volver a reproducir fielmente en una amplia gama de configuraciones de sala. El sistema proporciona una reproducción óptima de la intención artística cuando la mezcla y la renderización utilizan la misma configuración de canal y un único inventario con adaptación descendente para la configuración de renderización, es decir, una mezcla descendente.
Estas y otras ventajas se proporcionan a través de unas realizaciones que están dirigidas a una plataforma de sonido de cine, que abordan las limitaciones del sistema actual y que ofrecen una experiencia de audio más allá de la que ofrecen los sistemas disponibles actualmente.
Breve descripción de los dibujos
En los siguientes dibujos se utilizan números de referencia similares para hacer referencia a elementos similares. Aunque las siguientes figuras representen diversos ejemplos, la una o más implantaciones no se limitan a los ejemplos representados en las figuras.
La figura 1 es una descripción general de alto nivel de un entorno de reproducción y creación de audio que utiliza un sistema de audio adaptativo.
La figura 2 ilustra la combinación de canales y datos basados en objetos para producir una mezcla de de audio adaptativo.
La figura 3 es un diagrama de bloques que ilustra el flujo de trabajo de creación, empaquetado y renderización de contenido de audio adaptativo.
La figura 4 es un diagrama de bloques de una etapa de reproducción de un sistema de audio adaptativo.
La figura 5 es una tabla que enumera los tipos de metadatos y los elementos de metadatos asociados para el sistema de audio adaptativo.
La figura 6 es un diagrama que ilustra una postproducción y masterización para un sistema de audio adaptativo. La figura 7 es un diagrama de un flujo de trabajo de ejemplo para un proceso de empaquetado de cine digital que utiliza archivos de audio adaptativos.
La figura 8 es una vista desde arriba de un trazado de ejemplo de ubicaciones de altavoces sugeridas para su uso con un sistema de audio adaptativo en un auditorio típico.
La figura 9 es una vista frontal de una ubicación de ejemplo de ubicaciones de altavoces sugeridas en la pantalla para su uso en un auditorio típico.
La figura 10 es una vista lateral de un trazado de ejemplo de ubicaciones de altavoces sugeridas para su uso con un sistema de audio adaptativo en el auditorio típico.
La figura 11 es un ejemplo de posicionamiento de los altavoces envolventes superiores y de los altavoces envolventes laterales con relación al punto de referencia.
Descripción detallada
Se describen sistemas y métodos para un sistema de audio adaptativo y la señal de audio a él asociada y un formato de datos que soporta múltiples tecnologías de renderización. Los aspectos de una o más realizaciones descritas en el presente documento pueden implantarse en un sistema de audio o audiovisual que procese la información de fuente de audio en un sistema de mezcla, renderización y reproducción que incluya uno o más ordenadores o dispositivos de procesamiento que ejecuten instrucciones de equipo lógico informático (software). Cualquiera de las realizaciones descritas puede usarse sola o junto con otras en cualquier combinación. Aunque diversas realizaciones pueden haber estado motivadas por diversas deficiencias de la técnica anterior, que pueden analizarse o aludirse en uno o más lugares de la memoria descriptiva, las realizaciones no abordan necesariamente ninguna de estas deficiencias. En otras palabras, diferentes realizaciones pueden abordar diferentes deficiencias que pueden analizarse en la especificación. Algunas realizaciones pueden abordar sólo parcialmente algunas deficiencias o sólo una deficiencia, la cual o las cuales se puede analizar en la especificación, y algunas realizaciones pueden no abordar ninguna de estas deficiencias.
Para los fines de la presente descripción, los siguientes términos tienen los siguientes significados asociados:
Canal o canal de audio: una señal de audio monofónica o un torrente de audio más los metadatos en los que la posición se codifica como un ID de canal, por ejemplo, de sonido envolvente frontal izquierdo o superior derecho. Un objeto de canal puede accionar varios altavoces, por ejemplo, los canales envolventes izquierdos (Ls) alimentarán a todos los altavoces de la matriz Ls.
Configuración de canal: un conjunto predefinido de zonas de altavoces con ubicaciones nominales asociadas, por ejemplo, 5.1, 7.1, etc.; 5.1 se refiere a un sistema de audio de sonido envolvente de seis canales que tiene canales frontales izquierdo y derecho, canal central, dos canales envolventes y un canal de subwoofer; 7.1 se refiere a un sistema de sonido envolvente de ocho canales que añade dos canales de sonido envolvente adicionales al sistema 5.1. Entre los ejemplos de configuraciones 5.1 y 7.1 se incluyen los sistemas de sonido envolvente Dolby®.
Altavoz: un transductor de audio o conjunto de transductores que generan una señal de audio.
Zona de altavoces: una matriz de uno o más altavoces puede tener una referencia única y que recibe una única señal de audio, por ejemplo de sonido envolvente izquierdo como se encuentra típicamente en el cine, y en particular para la exclusión o inclusión en la renderización de objetos.
Canal de altavoz o canal de alimentación de altavoz: un canal de audio que está asociado con un altavoz o zona de altavoces con nombre dentro de una configuración de altavoz definida. Un canal de altavoz se renderiza nominalmente utilizando la zona de altavoz asociada.
Grupo de canales de altavoces: un conjunto de uno o más canales de altavoces correspondientes a una configuración de canal (por ejemplo, una pista estéreo, una pista mono, etc.)
Objeto o canal de objeto: uno o más canales de audio con una descripción paramétrica de fuente, como la posición de fuente aparente (por ejemplo, con coordenadas 3D), el ancho de fuente aparente, etc. Un torrente de audio más metadatos en los que la posición se codifica como una posición 3D en el espacio.
Programa de audio: el conjunto completo de los canales de altavoz y/o de los canales de objeto y los metadatos asociados que describen la presentación de audio espacial deseada.
Referencia alocéntrica: una referencia espacial en la que los objetos de audio se definen con relación a las características dentro del entorno de representación, tal como las paredes y esquinas de la sala, las ubicaciones estándar de altavoz y la ubicación de pantalla (por ejemplo, la esquina frontal izquierda de una sala).
Referencia egocéntrica: una referencia espacial en la que los objetos de audio se definen con relación a la perspectiva del oyente (del público), y que a menudo se especifica con respecto a ángulos con relación a un oyente (por ejemplo, 30 grados a la derecha del oyente).
Trama: las tramas son segmentos cortos independientemente decodificables en los que se divide un programa de audio total. El límite y la velocidad de trama de audio están típicamente alineados con los fotogramas de vídeo. Audio adaptativo: las señales de audio basadas en canal y/o basadas en objeto, más los metadatos que generan las señales de audio, en base al entorno de reproducción.
El sistema de procesamiento y de formato de sonido de cine descrito en el presente documento, también denominado "sistema de audio adaptativo", utiliza una nueva descripción de audio espacial y de tecnología de reproducción para permitir una mejor inmersión del público, más control artístico, flexibilidad y escalabilidad del sistema, y facilidad de instalación y mantenimiento. Una plataforma de audio de cine incluye varios componentes discretos que incluyen herramientas de mezcla, empaquetador/codificador, desempaquetado/decodificador, componentes de renderización y mezcla final en la sala de cine, nuevos diseños de altavoz y amplificadores en red. El sistema incluye recomendaciones para una nueva configuración de canal que vaya a ser utilizada por creadores de contenido y expositores. El sistema utiliza una descripción basada en modelos que soporta varias características tales como: inventario único con adaptación ascendente y descendente a la configuración de renderización, es decir, renderización de retardo y habilitación de un uso óptimo de los altavoces disponibles; envolvente de sonido mejorado, incluyendo la mezcla optimizada descendente para evitar la correlación entre canales; resolución espacial aumentada a través de matrices direccionales (por ejemplo, un objeto de audio asignado dinámicamente a uno o más altavoces dentro de una matriz envolvente); y soporte para métodos de renderización alternativos.
La figura 1 es una descripción general de alto nivel de un entorno de reproducción y creación de audio que utiliza un sistema de audio adaptativo. Como se muestra en la figura 1, un entorno 100 comprehensivo y de extremo a extremo incluye componentes de creación, empaquetado, distribución y reproducción/renderización de contenido en un amplio número de dispositivos de punto final y casos de uso. El sistema general 100 se origina con contenido capturado de y para varios casos de uso diferentes que comprenden diferentes experiencias de usuario 112. El elemento 102 de captura de contenido incluye, por ejemplo, cine, TV, difusión en vivo, contenido generado por el usuario, contenido grabado, juegos, música y similares, y puede incluir contenido audio/visual o de audio puro. El contenido, a medida que avanza a través del sistema 100 desde la etapa 102 de captura hasta la experiencia 112 del usuario final, atraviesa varios pasos clave de procesamiento a través de componentes discretos del sistema. Estos pasos del proceso incluyen el procesamiento previo del audio 104, las herramientas de autoría y los procesos 106, la codificación mediante un códec 108 de audio que captura, por ejemplo, datos de audio, metadatos adicionales e información de reproducción, y canales de objetos. Se pueden aplicar diversos efectos de procesamiento, tales como compresión (con o sin pérdida), encriptación y similares a los canales de objetos para una distribución eficiente y segura a través de diversos medios. Luego, se aplican procesos 110 de decodificación y renderización específicos del punto final apropiados para reproducir y trasladar una experiencia particular 112 de usuario de audio adaptativo. La experiencia 112 de audio representa la reproducción del contenido de audio o audio/visual a través de altavoces y dispositivos de reproducción apropiados, y puede representar cualquier entorno en el que un oyente esté experimentando la reproducción del contenido capturado, tal como un cine, una sala de conciertos, un sala de cine al aire libre, una casa o una habitación, una cabina de escucha, un automóvil, una consola de juegos, un sistema de auriculares o audífonos, un sistema de megafonía (PA) o cualquier otro entorno de reproducción.
El sistema 100 incluye un códec 108 de audio que es capaz de distribuir y almacenar eficazmente programas de audio multicanal, y que, por lo tanto, puede denominarse códec "híbrido". El códec 108 combina datos de audio tradicionales basados en canal con metadatos asociados para producir objetos de audio que facilitan la creación y suministro de audio que están adaptados y optimizados para la renderización y reproducción en entornos que pueden ser diferentes del entorno de mezcla. Esto permite al ingeniero de sonido codificar su intención con respecto a cómo el oyente debe escuchar el audio final, en base al entorno de escucha real del oyente.
Los códecs de audio convencionales basados en canal funcionan asumiendo que el programa de audio será reproducido por una matriz de altavoces en posiciones predeterminadas con respecto al oyente. Para crear un programa de audio multicanal completo, los ingenieros de sonido suelen típicamente mezclar un gran número de torrentes de audio separados (por ejemplo, diálogo, música, efectos) para crear la impresión general deseada. Las decisiones de mezcla de audio se toman típicamente escuchando el programa de audio reproducido por una matriz de altavoces en las posiciones predeterminadas, por ejemplo, un sistema 5.1 o 7.1 particular en una sala de cine específica. La señal mezclada final sirve como entrada al códec de audio. Para la reproducción, los campos de sonido espacialmente precisos se consiguen sólo cuando los altavoces están colocados en las posiciones predeterminadas.
Una nueva forma de codificación de audio denominada codificación de objetos de audio proporciona distintas fuentes de sonido (objetos de audio) como entrada al codificador en forma de torrentes de audio separados. Los ejemplos de objetos de audio incluyen pistas de diálogo, instrumentos individuales, efectos de sonido individuales y otras fuentes puntuales. Cada objeto de audio está asociado con parámetros espaciales, que pueden incluir, pero sin limitarse a, información sobre la posición del sonido, el ancho del sonido y la velocidad. Los objetos de audio y los parámetros asociados se codifican luego para su distribución y almacenamiento. La renderización y la mezcla finales del objeto de audio se realizan en el extremo de recepción de la cadena de distribución de audio, como parte de la reproducción del programa de audio. Este paso puede basarse en el conocimiento de las posiciones reales de los altavoces de modo que el resultado sea un sistema de distribución de audio que se puede personalizar para las condiciones de escucha específicas del usuario. Las dos formas de codificación, basadas en canal y basadas en objeto, se comportan de manera óptima para diferentes condiciones de señal de entrada. Los codificadores de audio basados en canal son generalmente más eficientes para codificar señales de entrada que contienen mezclas densas de diferentes fuentes de audio y para sonidos difusos. Por el contrario, los codificadores de objetos de audio son más eficientes para codificar un pequeño número de fuentes de sonido altamente direccionales.
Los métodos y componentes del sistema 100 comprenden un sistema de codificación, distribución y decodificación de audio configurado para generar uno o más torrentes de bits que contienen tanto elementos de audio convencionales basados en canales como elementos de codificación de objetos de audio. Tal enfoque combinado proporciona eficiencia de codificación y flexibilidad de renderización mayores en comparación con los enfoques basados ya sea en canales o en objetos tomados por separado.
Otros aspectos incluyen ampliar un códec predefinido de audio basado en canal de una manera compatible con versiones anteriores para incluir elementos de codificación de objetos de audio. Se define una nueva 'capa de ampliación' que contiene los elementos de codificación del objeto de audio y se añade a la capa 'base' o 'compatible con versiones anteriores' del torrente de bits del códec de audio basado en canal. Este enfoque permite que uno o más torrentes de bits, que incluyen la capa de ampliación, sean procesados por decodificadores heredados, al tiempo que proporciona una experiencia de escucha perfeccionada para usuarios con nuevos decodificadores. Un ejemplo de una experiencia de usuario perfeccionada incluye el control de la renderización de objetos de audio. Una ventaja adicional de este enfoque es que los objetos de audio se pueden añadir o modificar en cualquier sitio a lo largo de la cadena de distribución sin decodificar/mezclar/volver a codificar el audio multicanal codificado con el códec de audio basado en canal.
Con respecto al marco de referencia, los efectos espaciales de las señales de audio son críticos para proporcionar una experiencia de inmersión para el oyente. Los sonidos que están destinados a emanar de una región específica de una pantalla o sala de visualización deben reproducirse a través de los altavoces ubicados en esa misma ubicación relativa. De este modo, el metadato de audio principal de un evento de sonido en una descripción basada en modelos es la posición, aunque también se pueden describir otros parámetros como el tamaño, la orientación, la velocidad y la dispersión acústica. Para transferir la posición, una descripción espacial de audio 3D basada en modelos requiere un sistema de coordenadas 3D. El sistema de coordenadas usado para la transmisión (euclidiana, esférica, etc.) se elige generalmente por conveniencia o compacidad, sin embargo, se pueden usar otros sistemas de coordenadas para el procesamiento de renderización. Además de un sistema de coordenadas, se requiere un marco de referencia para representar las ubicaciones de los objetos en el espacio. Para que los sistemas reproduzcan con precisión, en una variedad de entornos diferentes, el sonido basado en la posición, la selección del marco de referencia adecuado puede ser un factor crítico. Con un marco de referencia alocéntrico, la posición de una fuente de audio se define con relación a las características dentro del entorno de renderización, tales como las paredes y esquinas de la habitación, las ubicaciones estándar de los altavoces y la ubicación de la pantalla. En un marco de referencia egocéntrico, las ubicaciones se representan con respecto a la perspectiva del oyente, tal como "frente a mí, ligeramente a la izquierda", etc. Los estudios científicos de la percepción espacial (audio y otros), han demostrado que la perspectiva egocéntrica se utiliza casi universalmente. Sin embargo, para el cine, la alocéntrica resulta generalmente más apropiada, por varias razones. Por ejemplo, la ubicación precisa de un objeto de audio es más importante cuando hay un objeto asociado en la pantalla. Usando una referencia alocéntrica, para cada posición de escucha y para cualquier tamaño de pantalla, el sonido se localizará en la misma posición relativa en la pantalla, por ejemplo, un tercio a la izquierda del centro de la pantalla. Otra razón es que los mezcladores tienden a pensar y a mezclar en términos alocéntricos, y que las herramientas de panoramización se encuentran en un marco alocéntrico (las paredes de la sala), y los mezcladores esperan que se rendericen de esa manera, por ejemplo, este sonido tiene que estar en la pantalla, esto sonido tiene que estar fuera de la pantalla o desde la pared izquierda, etc.
A pesar del uso del marco de referencia alocéntrico en el entorno cinematográfico, hay algunos casos en los que un marco de referencia egocéntrico puede ser útil y más apropiado. Estos incluyen sonidos no diegéticos, es decir, aquellos que no están presentes en el "espacio de la historia", por ejemplo música ambiental, para la que puede ser deseable una presentación egocéntrica uniforme. Otro caso son los efectos de campo cercano (por ejemplo, un zumbido de mosquito en el oído izquierdo del oyente) que requieren una representación egocéntrica. Actualmente, no existen medios para renderizar un campo tal de sonido sin utilizar auriculares o altavoces de campo muy cercano. Además, las fuentes de sonido infinitamente lejanas (y las ondas planas resultantes) parecen provenir de una posición egocéntrica constante (por ejemplo, 30 grados a la izquierda), y tales sonidos son más fáciles de describir en términos egocéntricos que en términos alocéntricos.
En algunos casos, es posible utilizar un marco de referencia alocéntrico siempre que se defina una posición de escucha nominal, mientras que otros ejemplos requieren una representación egocéntrica que aún no es posible renderizar. Aunque una referencia alocéntrica puede ser más útil y apropiada, la representación de audio debe ser ampliable, ya que muchas características nuevas, incluida la representación egocéntrica, pueden ser más deseables en determinadas aplicaciones y entornos de escucha. El sistema de audio adaptativo incluye un enfoque de descripción espacial híbrida que incluye una configuración de canal recomendada para una fidelidad óptima y para la renderización de fuentes multipunto difusas o complejas (por ejemplo, para la multitud de un estadio, para ambiente) utilizando una referencia egocéntrica, más una descripción de sonido basada en modelo alocéntrica para permitir de manera eficiente aumentar la resolución espacial y la escalabilidad.
Componentes del sistema
Con referencia a la figura 1, los datos 102 de contenido de sonido original se procesan primero en un bloque 104 de procesamiento previo. El bloque 104 de procesamiento previo del sistema 100 incluye un componente de filtrado de canal de objeto. En muchos casos, los objetos de audio contienen fuentes de sonido individuales para permitir una panorámica independiente de los sonidos. En algunos casos, tales como cuando se crean programas de audio con sonido natural o de "producción", puede ser necesario extraer objetos de sonido individuales de una grabación que contiene múltiples fuentes de sonido. Las realizaciones incluyen un método para aislar señales de fuente independientes de una señal más compleja. Los elementos indeseables van a separarse de las señales de fuente independientes pueden incluir, pero sin limitarse a, otras fuentes de sonido independientes y ruido de fondo. Además, se puede eliminar la reverberación para recuperar fuentes de sonido "secas".
El preprocesador 104 también incluye la funcionalidad de separación de fuentes y de detección de tipo de contenido. El sistema proporciona la generación automatizada de metadatos a través del análisis del audio de entrada. Los metadatos posicionales se derivan de una grabación multicanal a través de un análisis de los niveles relativos de entrada correlacionada entre pares de canales. La detección del tipo de contenido, tal como de "voz" o de "música", puede lograrse, por ejemplo, mediante extracción y clasificación de características.
Herramientas de autoría
El bloque 106 de herramientas de autoría incluye características para mejorar la autoría de programas de audio optimizando la entrada y la codificación de la intención creativa del ingeniero de sonido permitiéndole crear la mezcla de audio final una vez optimizada para su reproducción en prácticamente cualquier entorno de reproducción. Esto se logra a través del uso de objetos de audio y de datos de posición asociados y codificados con el contenido de audio original. Con el fin de colocar con precisión los sonidos alrededor en un auditorio, el ingeniero de sonido necesita controlar cómo se renderizará el sonido en última instancia en función de las limitaciones y características reales del entorno de reproducción. El sistema de audio adaptativo proporciona este control al permitir que el ingeniero de sonido cambie la manera en que se diseña y se mezcla el contenido de audio a través del uso de objetos de audio y datos de posición.
Los objetos de audio se pueden considerar como grupos de elementos de sonido que pueden percibirse como emanados de una ubicación o de varias ubicaciones física/s particular/es en el auditorio. Tales objetos pueden ser estáticos o pueden moverse. En el sistema 100 de audio adaptativo, los objetos de audio están controlados por metadatos que, entre otras cosas, detallan la posición del sonido en un punto dado en el tiempo. Cuando los objetos se monitorizan o reproducen en una sala de cine, se renderizan de acuerdo con los metadatos posicionales utilizando los altavoces que están presentes, en lugar de ser necesariamente emitirse a un canal físico. Una pista de una sesión puede ser un objeto de audio, y los datos de panorámica estándar son análogos a los metadatos posicionales. De esta manera, el contenido colocado en la pantalla puede desplazarse de manera efectiva de la misma manera que con el contenido basado en canal, pero el contenido envolvente colocado alrededor se puede renderizar a un altavoz individual si se desea. Si bien el uso de objetos de audio proporciona el control deseado para efectos discretos, otros aspectos de la banda sonora de una película funcionan de manera efectiva en un entorno basado en canal. Por ejemplo, muchos efectos ambientales o la reverberación se aprovechan más al ser alimentados a matrices de altavoces. Aunque éstos podrían tratarse como objetos con suficiente ancho para llenar una matriz, es provechoso conservar alguna funcionalidad basada en canal.
El sistema de audio adaptativo soporta 'lechos' además de objetos de audio, donde los lechos son efectivamente submezclas o vástagos basados en canal. Estos se pueden suministrar para la reproducción final (renderización) ya sea individualmente o combinados en un solo lecho, dependiendo de la intención del creador de contenido. Estos lechos se pueden crear en diferentes configuraciones basadas en canal, como 5.1, 7.1, y son ampliables a formatos más amplios, tales como 9.1, y a matrices que incluyen altavoces aéreos.
La figura 2 ilustra la combinación de canales y datos basados en objetos para producir una mezcla de de audio adaptativo. Como se muestra en el proceso 200, los datos 202 basados en canales, que, por ejemplo, pueden ser datos de sonido envolvente 5.1 o 7.1 proporcionados en forma de datos modulados por código de pulso (PCM), se combinan con datos 204 de objetos de audio para producir una mezcla 208 de audio. Los datos 204 de objeto de audio se producen combinando los elementos de los datos originales basados en el canal con metadatos asociados que especifican ciertos parámetros pertenecientes a la ubicación de los objetos de audio.
Como se muestra conceptualmente en la figura 2, las herramientas de autoría brindan la capacidad de crear programas de audio que contienen una combinación simultánea de grupos de canales de altavoces con canales de objetos. Por ejemplo, un programa de audio podría contener uno o más canales de altavoz organizados opcionalmente en grupos (o pistas, por ejemplo, una pista estéreo o 5.1), metadatos descriptivos para uno o más canales de altavoces, uno o más canales de objetos y metadatos descriptivos para uno o más canales de objetos. Dentro de un programa de audio, cada grupo de canales de altavoz y cada canal de objeto pueden representarse usando una o más frecuencias de muestreo diferentes. Por ejemplo, las aplicaciones de cine digital (D-Cinema) soportan frecuencias de muestreo de 48 kHz y 96 kHz, pero también pueden soportarse otras frecuencias de muestreo. Además, también se puede soportar la asimilación, el almacenamiento y la edición de canales con diferentes frecuencias de muestreo.
La creación de un programa de audio requiere el paso de diseñar el sonido, que incluye combinar elementos de sonido como una suma de elementos de sonido constituyentes ajustados a nivel para crear un nuevo efecto de sonido deseado. Las herramientas de autoría del sistema de audio adaptativo permiten la creación de efectos de sonido como una colección de objetos de sonido con posiciones relativas utilizando una interfaz gráfica de usuario de diseño de sonido espacial-visual. Por ejemplo, se puede utilizar como plantilla una representación visual del objeto generador de sonido (por ejemplo, un automóvil) para ensamblar elementos de audio (detonación de tubo de escape, zumbido de neumático, ruido de motor) como canales de objetos que contienen el sonido y la posición espacial apropiados (en el tubo de escape, los neumáticos, el capó). A continuación, los canales de objetos individuales se pueden vincular y manipular como un grupo. La herramienta 106 de autoría incluye varios elementos de interfaz de usuario para permitir que el ingeniero de sonido introduzca información de control y vea parámetros de mezcla, y mejore la funcionalidad del sistema. El proceso de autoría y diseño de sonido también se mejora al permitir que los canales de los objetos y los canales de los altavoces se vinculen y manipulen como un grupo. Un ejemplo es la combinación de un canal de objeto con una fuente seca y discreta de sonido con un conjunto de canales de altavoz que contienen una señal de reverberación asociada.
La herramienta 106 de autoría de audio soporta la capacidad de combinar múltiples canales de audio, comúnmente denominada mezcla. Soporta múltiples métodos de mezcla, y puede incluir mezcla tradicional basada en niveles y mezcla basada en intensidad sonora. En la mezcla basada en niveles, se aplica una escala de banda ancha a los canales de audio, y, luego, se suman los canales de audio escalados. Los factores de escala de banda ancha para cada canal se eligen para controlar el nivel absoluto de la señal mixta resultante, y también los niveles relativos de los canales mixtos dentro de la señal mixta. En la mezcla basada en intensidad sonora, se modifican una o más señales de entrada usando una escala de amplitud dependiente de la velocidad, y se elige la amplitud dependiente de la velocidad para proporcionar la intensidad sonora absoluta y relativa percibida deseada, que conserve el timbre percibido del sonido de entrada.
Las herramientas de autoría facilitan la capacidad de crear canales de altavoces y grupos de canales de altavoces. Esto permite asociar metadatos con cada grupo de canales de altavoces. Cada grupo de canales de altavoces se puede etiquetar de acuerdo con el tipo de contenido. El tipo de contenido se puede ampliar mediante una descripción de texto. Los tipos de contenido pueden incluir, pero sin limitarse a, diálogo, música y efectos. A cada grupo de canales de altavoces se le puede asignar instrucciones únicas sobre cómo realizar una mezcla ascendente de una configuración de canal a otra, donde la mezcla ascendente se define como la creación de M canales de audio a partir de N canales donde M > N. Las instrucciones de mezcla ascendente pueden incluir, pero sin limitarse a, los siguientes elementos: un indicador de activación/desactivación para indicar si se permite la mezcla ascendente; una matriz de mezcla ascendente para controlar el mapeo entre cada canal de entrada y salida; y la configuración por defecto de habilitación y de matriz se puede asignar en base al tipo de contenido, como, por ejemplo, al habilitar la mezcla ascendente sólo para música. A cada grupo de canales de altavoces también se le pueden asignar instrucciones únicas sobre cómo realizar una mezcla descendente de una configuración de canal a otra, donde la mezcla descendente se define como la creación de Y canales de audio a partir de X canales donde Y < X. Las instrucciones de mezcla descendente pueden incluir, pero no están limitadas a, los siguientes elementos: una matriz para controlar el mapeo entre cada canal de entrada y salida; y la configuración de matriz por defecto se puede asignar en base al tipo de contenido, así, por ejemplo, el diálogo se mezclará de manera descendente en la pantalla; los efectos se mezclarán de manera descendente fuera de la pantalla. Cada canal de altavoz se puede también asociar con una bandera de metadatos para deshabilitar la gestión de graves durante la renderización.
Una característica permite la creación de canales de objetos y grupos de canales de objetos. Esta invención permite asociar metadatos con cada grupo de canales de objetos. Cada grupo de canales de objetos se puede etiquetar de acuerdo con el tipo de contenido. El tipo de contenido se puede ampliar mediante una descripción de texto, donde los tipos de contenido pueden incluir, pero sin limitarse a, diálogo, música y efectos. A cada grupo de canales de objetos se le pueden asignar metadatos para describir cómo se deben representar los objetos.
Se proporciona información de posición para indicar la posición de fuente aparente deseada. La posición puede indicarse utilizando un marco de referencia egocéntrico o alocéntrico. La referencia egocéntrica es apropiada cuando la posición de la fuente va a referirse al oyente. En el caso de la posición egocéntrica, son útiles las coordenadas esféricas para la descripción de la posición. Una referencia alocéntrica es el marco de referencia típico para cine u otras presentaciones audiovisuales en las que la posición de la fuente hace referencia a objetos en el entorno de presentación, tales como la pantalla de visualización o los límites de sala. Se proporciona información de la trayectoria tridimensional (3D) para permitir la interpolación de la posición o para el uso de otras decisiones de renderización, decisiones tales como la de habilitar un "ajuste a modo". Se proporciona información de tamaño para indicar el tamaño de fuente de audio percibido aparente deseado.
La cuantificación espacial se proporciona a través de un control de "ajuste al altavoz más cercano", que indica la intención del ingeniero de sonido o del mezclador de hacer que un objeto sea renderizado por exactamente un altavoz (con algún sacrificio potencial a la precisión espacial). Se puede indicar un límite a la distorsión espacial permitida a través de umbrales de tolerancia de elevación y acimut, tal que si se excede el umbral, no se producirá la función "ajuste". Además de los umbrales de distancia, se puede indicar un parámetro de velocidad de fundido cruzado para controlar la rapidez con la que un objeto en movimiento transitará o saltará de un altavoz a otro cuando la posición deseada cruce entre los altavoces.
Se utilizan metadatos espaciales dependientes para ciertos metadatos de posición. Por ejemplo, los metadatos se pueden generar automáticamente para un objeto "esclavo" asociándolo con un objeto "maestro" al que el objeto esclavo debe seguir. Se puede asignar un retardo de tiempo o una velocidad relativa al objeto esclavo. También se pueden proporcionar mecanismos para permitir la definición de un centro de gravedad acústico para conjuntos o grupos de objetos, tal que un objeto se pueda renderizar de tal manera que se perciba que se mueve alrededor de otro objeto. En tal caso, uno o más objetos pueden girar alrededor de un objeto o de un área definida, tal como un punto dominante o un área seca de la sala. El centro de gravedad acústico se usaría luego en la etapa de renderización para ayudar a determinar la información de ubicación para cada sonido apropiado basado en objeto, incluso aunque la información de ubicación final se expresara como una ubicación relativa a la sala, en lugar de cómo una ubicación relativa a otro objeto.
Cuando se renderiza un objeto, se asigna a uno o más altavoces de acuerdo con los metadatos de posición y con la ubicación de los altavoces de reproducción. Se pueden asociar metadatos adicionales con el objeto para limitar los altavoces que se utilizarán. El uso de restricciones puede prohibir el uso de los altavoces indicados o simplemente inhibir los altavoces indicados (permitir que entre menos energía en el altavoz o altavoces de la que en otro caso se aplicaría). Los conjuntos de altavoces que se restringirán pueden incluir, pero sin limitarse a, cualquiera de los altavoces nombrados o zonas de altavoces (por ejemplo, L, C, R, etc.) o áreas de altavoces, tales como: pared frontal, pared posterior, pared izquierda, pared derecha, techo, suelo, altavoces dentro de la sala, etc. Asimismo, en el curso de especificar la mezcla deseada de múltiples elementos de sonido, es posible hacer que uno o más elementos de sonido se vuelvan inaudibles o "enmascarados" debido a la presencia de otros elementos de sonido "enmascarados". Por ejemplo, cuando se detectan elementos enmascarados, el usuario podría identificarlos mediante un dispositivo gráfico de visualización.
Como se describe en otra parte, la descripción del programa de audio se puede adaptar para renderizar en una amplia variedad de instalaciones de altavoces y configuraciones de canales. Cuando se realiza la autoría de un programa de audio, es importante monitorizar el efecto de renderizar el programa en las configuraciones de reproducción anticipadas para verificar que se consiguen los resultados deseados. Esta invención incluye la capacidad de seleccionar configuraciones de reproducción de destino y de monitorizar el resultado. Además, el sistema puede monitorizar automáticamente los niveles de señal en el peor de los casos (es decir, los más altos) que se generarían en cada configuración de reproducción anticipada, y proporcionar una indicación si se produjera un recorte o limitación.
La figura 3 es un diagrama de bloques que ilustra el flujo de trabajo de creación, empaquetado y renderización de contenido de audio adaptativo. El flujo 300 de trabajo de la figura 3 se divide en tres grupos de tareas distintos denominados creación/autoría, empaquetado y exposición. En general, el modelo híbrido de lechos y objetos que se muestra en la figura 2 permite que la mayor parte del diseño, la edición, la mezcla previa y la mezcla final del sonido se realicen de la misma manera que en la actualidad y sin añadir una sobrecarga excesiva a los procesos actuales. La funcionalidad de audio adaptativo se proporciona en forma de software, soporte lógico inalterable (firmware) o circuitería que se utilizan junto con el equipo de procesamiento y producción de sonido, donde tal equipo pueden ser nuevos sistemas de hardware o actualizaciones de sistemas existentes. Por ejemplo, se pueden proporcionar aplicaciones posibles de enchufar para estaciones de trabajo de audio digital que permitan que las técnicas de panoramización existentes dentro del diseño y la edición de sonido permanezcan sin cambios. De esta manera, es posible colocar tanto lechos como objetos dentro de la estación de trabajo en salas de edición 5.1 o similares equipadas con sonido envolvente. El audio y los metadatos del objeto se graban en la sesión como preparación para las etapas de mezcla previa y final en la sala de doblaje.
Como se muestra en la figura 3, las tareas de creación o autoría implican la entrada de controles 302 de mezcla por parte de un usuario, por ejemplo, de un ingeniero de sonido en el siguiente ejemplo, para una mesa 304 de mezclas o estación de trabajo de audio. Los metadatos están integrados en la superficie de la mesa de mezclas, lo que permite los actuadores de fundido de las cintas, la panoramización y el procesamiento de audio para trabajar tanto con lechos o vástagos como con objetos de audio. Los metadatos se pueden editar usando la superficie de la mesa o la interfaz de usuario de la estación de trabajo, y el sonido se monitoriza usando una unidad 306 de renderización y masterización (RMU). Los datos de audio del lecho y del objeto y los metadatos asociados se graban durante la sesión de masterización para crear un 'maestro de impresión', que incluye una mezcla de audio adaptativo 310 y cualesquiera otros entregables renderizados 308 (como una mezcla de cine envolvente 7.1 o 5.1). Se pueden usar herramientas de autoría existentes (por ejemplo, estaciones de trabajo de audio digital tales como Pro Tools) para permitir a los ingenieros de sonido etiquetar pistas de audio individuales dentro de una sesión de mezcla. Este concepto se amplía al permitir a los usuarios etiquetar subsegmentos individuales dentro de una pista para ayudar a encontrar o identificar rápidamente elementos de audio. La interfaz de usuario de la mesa de mezclas que permite la definición y creación de los metadatos puede implantarse a través de elementos de interfaz gráfica de usuario, controles físicos (por ejemplo, controles deslizantes y perillas) o cualquier combinación de los mismos.
En la etapa de empaquetado, el archivo maestro de impresión se embala utilizando procedimientos de embalaje de MXF estándar de la industria, se pica y opcionalmente se encripta con el fin de garantizar la integridad del contenido de audio para su entrega a la instalación de empaquetado de cine digital. Este paso puede ser realizado por un procesador 312 de cine digital (DCP) o por cualquier procesador de audio apropiado dependiendo del entorno último de reproducción, como una sala 318 de cine equipada con sonido envolvente estándar, una sala 320 de cine capacitada con audio adaptativo o cualquier otro entorno de reproducción. Como se muestra en la figura 3, el procesador 312 emite las señales 314 y 316 de audio apropiadas dependiendo del entorno de exposición.
El maestro de impresión de audio adaptativo contiene una mezcla de audio adaptativo, junto con una mezcla estándar de código de pulso modulado (PCM) compatible con DCI. La mezcla PCM puede ser renderizada por la unidad de renderización y masterización en una sala de doblaje, o creada por un pase de mezcla separado si se desea. El audio de PCM forma el archivo de pista de audio principal estándar dentro del procesador 312 de cine digital, y el audio adaptativo forma un archivo de pista adicional. Un archivo tal de seguimiento puede ser compatible con los estándares industriales existentes, y es ignorado por los servidores compatibles con DCI que no pueden utilizarlo.
En un entorno de reproducción de cine de ejemplo, un servidor reconoce el DCP que contiene un archivo de pista de audio adaptativo como un paquete válido, y se asimila en el servidor y luego se retransmite a un procesador de cine de audio adaptativo. Un sistema que tiene tanto PCM lineal como archivos de audio adaptativos disponibles puede alternar entre ellos según sea necesario. Para su distribución al escenario de exposición, el esquema de empaquetado de audio adaptativo permite la entrega para que un solo tipo de paquete sea ofrecido en un cine. El paquete de DCP contiene tanto PCM como archivos de audio adaptativo. Se puede incorporar el uso de claves de seguridad, tal como en un mensaje de entrega de claves (KDM), para facilitar la entrega segura de contenido de películas u otro contenido similar.
Como se muestra en la figura 3, la metodología de audio adaptativo se realiza al facilitar al ingeniero de sonido expresar su intención con respecto a la renderización y reproducción de contenido de audio a través de la estación 304 de trabajo de audio. Al controlar ciertos controles de entrada, el ingeniero puede especificar dónde y cómo se reproducen los objetos de audio y los elementos de sonido dependiendo del entorno de escucha. Los metadatos se generan en la estación 304 de trabajo de audio en respuesta a las entradas 302 de mezcla del ingeniero para proporcionar colas de renderización que controlan los parámetros espaciales (por ejemplo, la posición, la velocidad, la intensidad, el timbre, etc.) y especifican qué altavoz, altavoces o grupos de altavoces en el entorno de escucha reproduce los sonidos respectivos durante la exposición. Los metadatos están asociados con los datos de audio respectivos en la estación 304 de trabajo o en la RMU 306 para su empaquetado y transporte por el DCP 312. Una interfaz gráfica de usuario y herramientas de software que proporcionan el control de la estación 304 de trabajo por parte del ingeniero comprenden al menos parte de las herramientas 106 de autoría de la figura 1.
Códec de audio híbrido
Como se muestra en la figura 1, el sistema 100 incluye un códec 108 de audio híbrido. Este componente comprende un sistema de codificación, distribución y decodificación de audio que está configurado para generar un único torrente de bits que contiene elementos de audio convencionales basados en canal y elementos de codificación de objetos de audio. El sistema de codificación de audio híbrido se basa en un sistema de codificación basado en canal que está configurado para generar un torrente de bits único (unificado) que es simultáneamente compatible con (es decir, decodificable por) un primer decodificador configurado para decodificar datos de audio codificados de acuerdo con un primer protocolo de codificación (basado en canal) y uno o más decodificadores secundarios configurados para decodificar datos de audio codificados de acuerdo con uno o más protocolos de codificación secundarios (basados en objetos). El torrente de bits puede incluir datos codificados (en forma de ráfagas de datos) decodificables por el primer decodificador (e ignorados por cualquier decodificador secundario) y datos codificados (por ejemplo, otras ráfagas de datos) decodificables por uno o más decodificadores secundarios (e ignorados por el primer decodificador). El audio decodificado y la información asociada (metadatos) del primero y uno o más de los decodificadores secundarios se pueden combinar de manera tal que tanto la información basada en canal como la información basada en objeto se rendericen simultáneamente para recrear un facsímil del entorno, canales, información espacial y objetos presentados al sistema de codificación híbrido (es decir, dentro de un espacio 3D o entorno de escucha).
El códec 108 genera un torrente de bits que contiene información de audio codificada e información relacionada con múltiples conjuntos de posiciones de canal (altavoces). Un conjunto de posiciones de canal es fijo y se usa para el protocolo de codificación basado en canal, mientras que otro conjunto de posiciones de canal es adaptativo y se usa para el protocolo de codificación basado en objeto de audio, de tal modo que la configuración de canal para un objeto de audio puede cambiar en función del tiempo (dependiendo de dónde se coloque el objeto en el campo de sonido). De este modo, el sistema de codificación de audio híbrido puede llevar información sobre dos conjuntos de ubicaciones de altavoces para su reproducción, donde un conjunto puede ser fijo y ser un subconjunto del otro. Los dispositivos que soporten información de audio codificada heredada decodificarán y renderizarán la información de audio del subconjunto fijo, mientras que un dispositivo capaz de soportar el conjunto más grande podría decodificar y renderizar la información de audio codificada adicional que se asignaría de manera variable en el tiempo a diferentes altavoces del conjunto más grande. Lo que es más, el sistema no depende de que el primero y uno o más de los decodificadores secundarios estén presentes simultáneamente dentro de un sistema y/o dispositivo. Por consiguiente, un dispositivo/sistema heredado y/o existente que contenga sólo un decodificador que soporte el primer protocolo producirá un campo de sonido totalmente compatible que se renderizará mediante sistemas de reproducción tradicionales basados en canal. En este caso, las partes desconocidas o no soportadas del protocolo de torrente de bits híbrido (es decir, la información de audio representada por un protocolo de codificación secundario) serían ignoradas por el decodificador del sistema o dispositivo que soporta el primer protocolo de codificación híbrido.
Alternativamente, el códec 108 está configurado para funcionar en un modo en el que el primer subsistema de codificación (que soporta el primer protocolo) contiene una representación combinada de toda la información del campo de sonido (canales y objetos) representada tanto en el primero como en uno o más de los subsistemas del codificador secundario presentes dentro del codificador híbrido. Esto asegura que el torrente de bits híbrido incluya compatibilidad para versiones anteriores con decodificadores que soportan sólo el protocolo del primer subsistema de codificador, al permitir que los objetos de audio (que van normalmente en uno o más protocolos de codificador secundarios) se representen y rendericen dentro de decodificadores que soportan sólo el primer protocolo.
Alternativamente, el códec 108 incluye dos o más subsistemas de codificación, donde cada uno de estos subsistemas está configurado para codificar datos de audio de acuerdo con un protocolo diferente, y está configurado para combinar las salidas de los subsistemas para generar un torrente de bits de formato híbrido (unificado).
Uno de los beneficios es la capacidad de llevar un torrente de bits de audio codificado híbrido a través de una amplia gama de sistemas de distribución de contenido, donde cada uno de los sistemas de distribución soporta convencionalmente sólo datos codificados de acuerdo con el primer protocolo de codificación. Esto elimina la necesidad, para cualquier sistema y/o transporte, de modificaciones/cambios de protocolo de nivel con el fin de soportar específicamente el sistema de codificación híbrido.
Los sistemas de codificación de audio utilizan típicamente elementos de torrente de bits estandarizados para permitir el transporte de datos adicionales (arbitrarios) dentro del propio torrente de bits. Estos datos adicionales (arbitrarios) se omiten (es decir, se ignoran) generalmente durante la decodificación del audio codificado incluido en el torrente de bits, pero pueden usarse para un fin diferente a la decodificación. Los diferentes estándares de codificación de audio expresan estos campos de datos adicionales utilizando una nomenclatura única. Los elementos de torrente de bits de este tipo general pueden incluir, pero sin limitarse a, datos auxiliares, campos de omisión, elementos de torrente de datos, elementos de relleno, datos accesorios y elementos de subtorrente. A menos que se indique lo contrario, el uso de la expresión "datos auxiliares" en el presente documento no implica un tipo o formato específico de datos adicionales, sino que debe interpretarse como una expresión genérica que abarca cualquiera o todos los ejemplos asociados con la presente invención.
Un canal de datos habilitado mediante elementos de torrente de bits "auxiliares" de un primer protocolo de codificación dentro de un torrente de bits de sistema de codificación híbrido combinado podría llevar uno o más torrentes secundarios (independientes o dependientes) de bits de audio (codificados de acuerdo con uno o más protocolos de codificación secundarios). El uno o más torrentes de bits de audio secundarios podría/n dividirse en bloques de N muestras y multiplexarse en los campos de "datos auxiliares" de un primer torrente de bits. El primer torrente de bits se puede decodificar mediante un decodificador (complemento) apropiado. Además, los datos auxiliares del primer torrente de bits podrían extraerse, recombinados en uno o más torrentes de bits de audio secundarios, ser decodificados mediante un procesador que soporte la sintaxis de uno o más de los torrentes de bits secundarios y luego combinarse y renderizarse juntos o independientemente. Lo que es más, también es posible invertir los papeles de los torrentes de bits primero y segundo, de modo que los bloques de datos de un primer torrente de bits se multiplexen en los datos auxiliares de un segundo torrente de bits.
Los elementos de torrente de bits asociados con un protocolo de codificación secundario también llevan y transfieren características de información (metadatos) del audio subyacente, que pueden incluir, pero no se limitan a, la posición, velocidad y tamaño deseados de la fuente de sonido. Estos metadatos se utilizan durante los procesos de decodificación y renderización para recrear la posición adecuada (es decir, original) para el objeto de audio asociado que va dentro del torrente de bits aplicable. También es posible llevar los metadatos descritos anteriormente, que son aplicables a los objetos de audio contenidos en uno o más torrentes de bits secundarios presentes en el torrente híbrido, dentro de elementos de torrente de bits asociados con el primer protocolo de codificación.
Los elementos de torrente de bits asociados con uno o ambos protocolos primero y segundo de codificación del sistema de codificación híbrido llevan/transfieren metadatos contextuales que identifican parámetros espaciales (es decir, la esencia de las propiedades de la señal en sí) y más información adicional que describe el tipo de esencia de audio subyacente en forma de clases de audio específicas que se llevan dentro del torrente de bits de audio codificado híbrido. Tales metadatos podrían indicar, por ejemplo, la presencia de diálogo hablado, música, diálogo sobre música, aplausos, voz cantada, etc., y podrían utilizarse para modificar de manera adaptativa el comportamiento de los módulos de procesamiento previo o posterior interconectados aguas arriba o aguas abajo del sistema híbrido de codificación.
El códec 108 está configurado para funcionar con un fondo de bits compartido o común en el que los bits disponibles para codificación se "comparten" entre todos o parte de los subsistemas de codificación que soportan uno o más protocolos. Tal códec puede distribuir los bits disponibles (a partir del fondo común de bits "compartidos") entre los subsistemas de codificación con el fin de optimizar la calidad de audio general del torrente de bits unificado. Por ejemplo, durante un primer intervalo de tiempo, el códec puede asignar más bits disponibles a un primer subsistema de codificación y menos bits disponibles a los subsistemas restantes, mientras que durante un segundo intervalo de tiempo, el códec puede asignar una cantidad menor de los bits disponibles al primer subsistema de codificación y una cantidad mayor de los bits disponibles a los subsistemas restantes. La decisión de cómo asignar bits entre subsistemas de codificación puede depender, por ejemplo, de los resultados del análisis estadístico del fondo de bits compartidos y/o del análisis del contenido de audio codificado por cada subsistema. El códec puede asignar bits del fondo compartido de tal manera que un torrente de bits unificado construido multiplexando las salidas de los subsistemas de codificación mantenga una velocidad de bits/longitud de trama constante durante un intervalo de tiempo específico. También es posible, en algunos casos, que la velocidad de bits/longitud de trama del torrente de bits unificado varíe durante un intervalo de tiempo específico.
Alternativamente, el códec 108 genera un torrente de bits unificado que incluye datos codificados de acuerdo con el primer protocolo de codificación configurado y transmitido como un subtorrente independiente de un torrente de datos codificados (que un decodificador que soporte el primer protocolo de codificación decodificará) y datos codificados de acuerdo con un segundo protocolo enviado como un subtorrente independiente o dependiente del torrente de datos codificados (que un decodificador que soporte el primer protocolo ignorará). De manera más general, el códec genera un torrente de bits unificado que incluye dos o más subtorrentes independientes o dependientes (donde cada subtorrente incluye datos codificados de acuerdo con un protocolo de codificación diferente o idéntico).
Alternativamente, el códec 108 genera un torrente de bits unificado que incluye datos codificados de acuerdo con el primer protocolo de codificación configurado y transmitido con un identificador de torrente de bits único (que un decodificador que soporte un primer protocolo de codificación asociado con el identificador de torrente de bits único decodificará), y datos codificados de acuerdo con un segundo protocolo configurado y transmitido con un identificador de torrente de bits único, que un decodificador que soporte el primer protocolo ignorará. De manera más general, el códec genera un torrente de bits unificado que incluye dos o más subtorrentes (donde cada subtorrente incluye datos codificados de acuerdo con un protocolo de codificación diferente o idéntico y donde cada uno lleva un identificador de torrente de bits único). Los métodos y sistemas para crear un torrente de bits unificado descritos anteriormente brindan la capacidad de señalizar inequívocamente (a un decodificador) qué entrelazado y/o protocolo se ha utilizado dentro de un torrente de bits híbrido (por ejemplo, para señalar si es el enfoque descrito de datos AUX, de SKIP, de DSE o de subtorrente el utilizado).
El sistema híbrido de codificación está configurado para soportar el desintercalado/demultiplexado y el reintercalado/remultiplexado de torrentes de bits que soportan uno o más protocolos secundarios en un primer torrente de bits (que soporta un primer protocolo) en cualquier punto de procesamiento que se encuentre en un sistema de entrega de medios. El códec híbrido está también configurado para ser capaz de codificar torrentes de entrada de audio con diferentes frecuencias de muestreo en un torrente de bits. Esto proporciona un medio para codificar y distribuir de manera eficiente fuentes de audio que contienen señales con anchos de banda inherentemente diferentes. Por ejemplo, las pistas de diálogo tienen típicamente un ancho de banda inherentemente menor que las pistas de música y efectos.
Renderización
El sistema de audio adaptativo permite empaquetar múltiples pistas (por ejemplo, hasta 128), habitualmente como una combinación de lechos y objetos. El formato básico de los datos de audio para el sistema de audio adaptativo comprende varios torrentes monofónicos de audio independientes. Cada torrente tiene asociados metadatos que especifican si el torrente es un torrente basado en canal o un torrente basado en objeto. Los torrentes basados en canal tienen información de renderización codificada por medio del nombre o de la etiqueta del canal; y los torrentes basados en objeto tienen información de ubicación codificada a través de expresiones matemáticas codificadas en metadatos asociados adicionales. Los torrentes de audio independientes originales se empaquetan luego como un único torrente de bits en serie que contiene todos los datos de audio de manera ordenada. Esta configuración de datos adaptativos permite que el sonido se renderice de acuerdo con un marco de referencia alocéntrico, en el que la ubicación última de renderización de un sonido se basa en el entorno de reproducción para que se corresponda con la intención del mezclador. De este modo, se puede especificar que un sonido se origine en un marco de referencia de la sala de reproducción (por ejemplo, en el medio de la pared izquierda), en lugar de especificarse en un altavoz o grupo de altavoces etiquetado (por ejemplo, envolvente izquierdo). Los metadatos de posición del objeto contienen el marco alocéntrico apropiado de la información de referencia necesaria para reproducir el sonido correctamente utilizando las posiciones de los altavoces disponibles en una sala que está configurada para reproducir el contenido de audio adaptativo.
El renderizador toma el torrente de bits que codifica las pistas de audio y procesa el contenido de acuerdo con el tipo de señal. Los lechos son alimentados para matrices, que potencialmente requerirán diferentes retardos y procesamiento de ecualización que los objetos individuales. El proceso soporta la renderización de estos lechos y objetos en múltiples (hasta 64) salidas de altavoz. La figura 4 es un diagrama de bloques de una etapa de renderización de un sistema de audio adaptativo. Como se muestra en el sistema 400 de la figura 4, ciertos componentes de las etapas de creación, autoría y empaquetado del sistema 300, tales como RMU 306 y el procesador 312, proporcionan una serie de señales de entrada, tal como hasta 128 pistas de audio, que comprenden las señales 402 de audio adaptativo. Estas señales comprenden los objetos y lechos basados en canal que son utilizados por el renderizador 404. Los objetos y el audio (los lechos) basado en canal se introducen en un administrador 406 de nivel que proporciona control sobre los niveles de salida o amplitudes de los diferentes componentes de audio. Ciertos componentes de audio pueden ser procesados por un componente 408 de corrección de matriz. Las señales de audio adaptativo pasan luego a través de un componente 410 de procesamiento de cadena B, que genera un número (por ejemplo, hasta 64) de señales de salida de alimentación de altavoz. En general, la alimentación de la cadena B se refiere a las señales procesadas por los amplificadores de potencia, los cruces y los altavoces, en contraste con el contenido de la cadena A, que constituye la banda sonora de la película.
El renderizador 404 ejecuta un algoritmo de renderización que usa inteligentemente los altavoces de sonido envolvente en el cine lo mejor que puede. Al mejorar el manejo de potencia y la respuesta de frecuencia de los altavoces envolventes, y mantener el mismo nivel de referencia de monitorización para cada altavoz o canal de salida en el cine, los objetos que se panoramizan entre la pantalla y los altavoces envolventes pueden mantener su nivel de presión sonora y tener una coincidencia de timbre más cercana sin, lo que es más importante, aumentar el nivel general de presión sonora en la sala de cine. Una matriz de altavoces envolventes especificados de forma adecuada tendrá típicamente suficiente margen dinámico para reproducir el intervalo dinámico máximo disponible dentro de una banda sonora envolvente 7.1 o 5.1 (es decir, 20 dB por encima del nivel de referencia), sin embargo, es poco probable que un único altavoz envolvente tenga el mismo margen dinámico que tiene un gran altavoz de pantalla multimodo. Como resultado, es probable que haya casos en los que un objeto colocado en el campo envolvente requiera una presión de sonido mayor que la que se puede obtener con un solo altavoz envolvente. En estos casos, el renderizador dispersará el sonido a través de un número apropiado de altavoces para lograr el nivel de presión sonora requerido. El sistema de audio adaptativo mejora la calidad y el manejo de la potencia de los altavoces envolventes para proporcionar una mejora en la fidelidad de la renderización. Proporciona soporte para la gestión de graves de los altavoces de sonido envolvente mediante el uso de subwoofers traseros opcionales que permiten que para cada altavoz de sonido envolvente se consiga un mejor manejo de potencia y, al mismo tiempo, se utilicen potencialmente cajas acústicas de altavoz más pequeñas. También permite la adición de altavoces envolventes laterales más cerca de la pantalla que la práctica actual para garantizar que los objetos puedan pasar sin problemas de la pantalla al sonido envolvente.
Mediante el uso de metadatos para especificar información de ubicación de objetos de audio junto con ciertos procesos de renderización, el sistema 400 proporciona un método comprehensivo y flexible para que los creadores de contenido se muevan más allá de las restricciones de los sistemas existentes. Como se indicó anteriormente, los sistemas actuales crean y distribuyen audio que se fija a ubicaciones particulares de los altavoces con un conocimiento limitado del tipo de contenido transferido en la esencia del audio (la parte del audio que se reproduce).
El sistema 100 de audio adaptativo proporciona un nuevo enfoque híbrido que incluye opciones para elementos tanto del audio específico de la ubicación del altavoz (canal izquierdo, canal derecho, etc.) como del audio orientado a objeto, que tengan información espacial generalizada que puede incluir, pero sin limitarse a, posición, tamaño y velocidad. Este enfoque híbrido proporciona un enfoque equilibrado de fidelidad (proporcionada por ubicaciones fijas de altavoces) y flexibilidad en la renderización (objetos de audio generalizados). El sistema también proporciona información adicional útil sobre el contenido de audio que el creador del contenido emparejó con la esencia del audio en el momento de la creación del contenido. Esta información proporciona información potente y detallada sobre los atributos del audio que se puede usar de maneras muy fructíferas durante la renderización. Tales atributos pueden incluir, pero sin limitarse a, el tipo de contenido (diálogo, música, efecto, Foley, trasfondo/ambiente, etc.), atributos espaciales (posición 3D, tamaño 3D, velocidad) e información de renderización (ajuste a la ubicación del altavoz, pesos de canal, ganancia, información de gestión de graves, etc.).
El sistema de audio adaptativo descrito en el presente documento proporciona una información potente que puede ser utilizada para la renderización por un número muy variable de puntos finales. En muchos casos, la técnica óptima de renderización aplicada depende en gran medida del dispositivo de punto final. Por ejemplo, los sistemas de cine en casa y las barras de sonido pueden tener 2, 3, 5, 7 o incluso 9 altavoces separados. Muchos otros tipos de sistemas, tales como televisores, ordenadores y bases de música tienen sólo dos altavoces, y casi todos los dispositivos de uso común tienen una salida de auriculares binaural (PC, ordenador portátil, tableta, teléfono celular, reproductor de música, etc.). Sin embargo, para el audio tradicional que se distribuye en la actualidad (mono, estéreo, canales 5.1, 7.1), los dispositivos de punto final necesitan a menudo tomar decisiones y compromisos simplistas para renderizar y reproducir audio que ahora se distribuye en una forma específica de canal/altavoz. Además, se transfiere poca o ninguna información sobre el contenido real (diálogo, música, ambiente, etc.) que se está distribuyendo y poca o ninguna información sobre la intención del creador del contenido para la reproducción de audio. Sin embargo, el sistema 100 de audio adaptativo proporciona esta información, y proporciona, potencialmente, acceso a los objetos de audio, lo que puede emplearse para crear una experiencia de usuario de próxima generación convincente.
El sistema 100 permite al creador de contenido incrustar la intención espacial de la mezcla dentro del torrente de bits utilizando metadatos tales como posición, tamaño, velocidad, etc., a través de un formato de transmisión de audio adaptativo y metadatos únicos y potentes. Esto permite una gran flexibilidad en la reproducción espacial de audio. Desde el punto de vista de la renderización espacial, el audio adaptativo permite la adaptación de la mezcla a la posición exacta de los altavoces en una sala en particular para evitar la distorsión espacial que se produce cuando la geometría del sistema de reproducción no es idéntica a la del sistema de autoría. En los sistemas de reproducción de audio actuales en los que sólo se envía audio para un canal de altavoz, se desconoce la intención del creador del contenido. El sistema 100 utiliza metadatos transferidos a lo largo del proceso de creación y distribución. Un sistema de reproducción con reconocimiento de audio adaptativo puede usar esta información de metadatos para reproducir el contenido de una manera que coincida con la intención original del creador del contenido. Asimismo, la mezcla se puede adaptar a la configuración del hardware exacta del sistema de reproducción. En la actualidad, existen muchas configuraciones y tipos de altavoces posibles diferentes en equipos de renderización tales como televisores, sistemas de cine en casa, barras de sonido, bases para reproductores portátiles de música, etc. Cuando a estos sistemas se les envía información de audio específica de canal en la actualidad (es decir, audio de canal izquierdo y derecho o audio multicanal), el sistema debe procesar el audio para que coincida de manera apropiada con las capacidades del equipo de renderización. Un ejemplo es el envío de audio estéreo estándar a una barra de sonido con más de dos altavoces. En la reproducción de audio actual, en la que sólo se envía audio para un canal de altavoz, se desconoce la intención del creador del contenido. Mediante el uso de metadatos transferidos a lo largo de la canalización de creación y distribución, un sistema de reproducción de audio adaptativo puede usar esta información para reproducir el contenido de una manera que coincida con la intención original del creador del contenido. Por ejemplo, algunas barras de sonido tienen altavoces laterales para crear una sensación de envolvimiento. Con audio adaptativo, la barra de sonido puede usar la información espacial y el tipo de contenido (tal como efectos ambientales) para enviar sólo el audio apropiado a estos altavoces laterales.
El sistema de audio adaptativo permite la interpolación ilimitada de altavoces en un sistema en todas las dimensiones frontal/posterior, izquierda/derecha, arriba/abajo, cerca/lejos. En los sistemas de reproducción de audio actuales, no existe información sobre cómo manejar el audio donde se puede desear posicionar el audio de tal manera que el oyente lo perciba entre dos altavoces. En la actualidad, con el audio que se asigna sólo a un altavoz específico, se introduce un factor de cuantificación espacial. Con audio adaptativo, el posicionamiento espacial del audio puede conocerse con precisión y reproducirse en consecuencia en el sistema de reproducción de audio.
Con respecto a la renderización de auriculares, la intención del creador se realiza haciendo coincidir las funciones de transferencia relacionadas con la cabeza (HRTF) con la posición espacial. Cuando el audio se reproduce a través de auriculares, se puede conseguir la virtualización espacial mediante la aplicación de una función de transferencia relacionada con la cabeza, que procesa el audio, añadiendo apuntes perceptuales que crean la percepción de que el audio se reproduce en el espacio 3D y no a través de auriculares. La precisión de la reproducción espacial depende de la selección de la HRTF apropiada, que puede variar en base a varios factores, incluida la posición espacial. El uso de la información espacial proporcionada por el sistema de audio adaptativo puede dar como resultado la selección de una HRTF o de un número variable continuo de estas funciones para mejorar en gran medida la experiencia de reproducción.
La información espacial transferida por el sistema de audio adaptativo no sólo puede ser utilizada por un creador de contenido para crear una experiencia de entretenimiento convincente (películas, televisión, música, etc.), sino que la información espacial también puede indicar dónde se posiciona el oyente con relación a objetos físicos tales como edificios o puntos geográficos de interés. Esto permitiría al usuario interactuar con una experiencia de audio virtualizada que esté relacionada con el mundo real, es decir, de realidad aumentada.
Las implantaciones permiten también la mezcla ascendente espacial, realizando una mezcla ascendente perfeccionada leyendo los metadatos sólo si los datos de audio de los objetos no están disponibles. Conocer la posición de todos los objetos y sus tipos permite al mezclador ascendente diferenciar mejor los elementos dentro de las pistas basadas en canal. Los algoritmos de mezcla ascendente existentes tienen que inferir información tal como el tipo de contenido de audio (voz, música, efectos ambientales), así como la posición de diferentes elementos dentro del torrente de audio, para crear una mezcla ascendente de alta calidad con artefactos audibles mínimos o nulos. Muchas veces la información inferida puede ser incorrecta o inapropiada. Con el audio adaptativo, la información adicional disponible de los metadatos relacionada, por ejemplo, con el tipo de contenido de audio, la posición espacial, la velocidad, el tamaño del objeto de audio, etc., puede ser utilizada por un algoritmo de mezcla ascendente para crear un resultado de reproducción de alta calidad. El sistema también hace coincidir espacialmente el audio con el vídeo al posicionar con precisión el objeto de audio de la pantalla para los elementos visuales. En este caso, es posible una experiencia de reproducción de audio/vídeo convincente, particularmente con tamaños de pantalla más grandes, si la ubicación espacial reproducida de algunos elementos de audio coincide con los elementos de la imagen en la pantalla. Un ejemplo es que el diálogo en una película o programa de televisión coincida espacialmente con una persona o personaje que está hablando en la pantalla. Con el audio basado en el canal del altavoz normal, no existe un método fácil para determinar dónde debe posicionarse espacialmente el diálogo para que coincida con la ubicación de la persona o personaje en la pantalla. Con la información de audio disponible con audio adaptativo, se puede conseguir tal alineamiento audio/visual. El alineamiento visual posicional y espacial de audio también se puede usar para objetos que no sean personajes/diálogos, tales como automóviles, camiones, animación, etc.
El sistema 100 facilita un procesamiento de enmascaramiento espacial, ya que el conocimiento de la intención espacial de una mezcla a través de los metadatos de audio adaptativos significa que la mezcla se puede adaptar a cualquier configuración de altavoz. Sin embargo, se corre el riesgo de realizar una mezcla descendente de objetos en la misma o casi en la misma ubicación debido a las limitaciones del sistema de reproducción. Por ejemplo, un objeto destinado a ser panoramizado en la parte trasera izquierda podría mezclarse de manera descendente en el frente izquierdo si los canales envolventes no están presentes, pero si se produce un elemento más ruidoso en el frente izquierdo al mismo tiempo, el objeto mezclado de manera descendente se enmascarará y desaparecerá de la mezcla. Usando metadatos de audio adaptativos, el renderizador puede anticipar el enmascaramiento espacial, y pueden ajustarse los parámetros espaciales y/o de mezcla descendente de intensidad sonora de cada objeto para que todos los elementos de audio de la mezcla permanezcan tan perceptibles como en la mezcla original. Debido a que el renderizador entiende la relación espacial entre la mezcla y el sistema de reproducción, tiene la capacidad de "ajustar" objetos a los altavoces más cercanos en lugar de crear una imagen fantasma entre dos o más altavoces. Si bien esto puede distorsionar ligeramente la representación espacial de la mezcla, también permite que el renderizador evite una imagen fantasma no intencionada. Por ejemplo, si la posición angular del altavoz izquierdo de la etapa de mezcla no se corresponde con la posición angular del altavoz izquierdo del sistema de reproducción, el uso de la función de ajuste al altavoz más cercano podría evitar que el sistema de reproducción reprodujera una imagen fantasma constante del canal izquierdo de la etapa de mezcla.
Con respecto al procesamiento de contenido, el sistema 100 de audio adaptativo permite al creador de contenido crear individuales objetos de audio y añadir información sobre el contenido que se puede transferir al sistema de reproducción. Esto permite una gran flexibilidad en el procesamiento del audio anterior a la reproducción. Desde el punto de vista del procesamiento y de la renderización de contenido, el sistema de audio adaptativo permite adaptar el procesamiento al tipo de objeto. Por ejemplo, el perfeccionamiento del diálogo se puede aplicar sólo a los objetos del diálogo. El perfeccionamiento del diálogo se refiere a un método de procesamiento de audio que contiene un diálogo tal que la audibilidad y/o inteligibilidad del diálogo aumente y/o mejore. En muchos casos, el procesamiento de audio que se aplica al diálogo es inapropiado para contenido de audio que no sea de diálogo (es decir, música, efectos ambientales, etc.) y puede dar como resultado artefactos audibles objetables. Con el audio adaptativo, un objeto de audio podría contener sólo el diálogo en un fragmento de contenido, y se puede etiquetar en consecuencia, para que una solución de renderización pudiera aplicar selectivamente el perfeccionamiento del diálogo sólo al contenido del diálogo. Además, si el objeto de audio es sólo diálogo (y no una mezcla de diálogo y otro contenido, como suele ser el caso), entonces el procesamiento de perfeccionamiento del diálogo puede procesar el diálogo exclusivamente (limitando por ello cualquier procesamiento que se realice en cualquier otro contenido). Asimismo, la gestión de graves (filtrado, atenuación, ganancia) puede dirigirse a objetos específicos en base a su tipo. La gestión de graves se refiere a aislar y procesar selectivamente sólo las frecuencias graves (o más bajas) de un fragmento de contenido en particular. Con los sistemas de audio y los mecanismos de entrega actuales, éste es un proceso "ciego" que se aplica a todo el audio. Con el audio adaptativo, los metadatos pueden identificar objetos de audio específicos para los que es apropiada la gestión de graves, y el procesamiento de renderización se puede aplicar de forma adecuada.
El sistema 100 de audio adaptativo también proporciona compresión de intervalo dinámico basada en objeto y mezcla ascendente selectiva. Las pistas de audio tradicionales tienen la misma duración que el contenido en sí, mientras que un objeto de audio puede aparecer durante un tiempo limitado en el contenido. Los metadatos asociados con un objeto pueden contener información sobre su amplitud de señal promedio y pico, así como su tiempo de comienzo o ataque (particularmente para material transitorio). Esta información permitiría a un compresor adaptar mejor su compresión y constantes de tiempo (ataque, liberación, etc.) para adaptarse mejor al contenido. Para la mezcla ascendente selectiva, los creadores de contenido pueden optar por indicar en el torrente de bits de audio adaptativo si un objeto debe mezclarse o no. Esta información permite al renderizador de audio adaptativo y al mezclador superior distinguir qué elementos de audio se pueden mezclar de forma segura, respetando la intención del creador.
Las implantaciones también permiten que el sistema de audio adaptativo seleccione un algoritmo preferido de renderización entre varios algoritmos de renderización disponibles y/o formatos de sonido envolvente. Los ejemplos de algoritmos de renderización disponibles incluyen: binaural, dipolo estéreo, Ambisonics, síntesis de campo de ondas (WFS), panoramización multicanal, vástagos sin procesar con metadatos de posición. Otros incluyen equilibrio dual y panoramización de amplitud basada en vectores.
El formato de distribución binaural usa una representación de dos canales de un campo de sonido en términos de la señal presente en los oídos izquierdo y derecho. La información binaural se puede crear mediante grabación en el oído o modelos sintetizados utilizando la HRTF. La reproducción de una representación binaural se hace típicamente a través de auriculares o mediante el empleo de anulación de intercomunicación. La reproducción en una configuración de altavoz arbitraria requeriría un análisis de la señal para determinar el campo de sonido asociado y/o la/s fuente/s de señal.
El método de renderización de dipolo estéreo es un proceso de anulación de diafonía transaural para hacer que las señales binaurales puedan reproducirse a través de altavoces estéreo (por ejemplo, a y - 10 grados fuera del centro).
Ambisonics es un (formato de distribución y un método de representación) que está codificado con una forma de cuatro canales denominada formato B. El primer canal, W, es la señal de presión no direccional; el segundo canal, X, es el gradiente de presión direccional que contiene la información frontal y posterior; el tercer canal, Y, contiene la izquierda y la derecha, y el Z la de arriba y abajo. Estos canales definen una muestra de primer orden del campo sonoro completo en un punto. Ambisonics utiliza todos los altavoces disponibles para recrear el campo de sonido muestreado (o sintetizado) dentro de la matriz de altavoces tal que cuando algunos altavoces empujan, otros tiran. La síntesis de campo de ondas es un método de renderización de reproducción de sonido, basado en la construcción precisa del campo de ondas deseado por fuentes secundarias. La WFS se basa en el principio de Huygens y se implanta como matrices de altavoces (decenas o cientos) que suenan en el espacio de escucha y funcionan de manera coordinada y en fases para recrear cada onda de sonido individual.
La panoramización multicanal es un formato de distribución y/o un método de renderización, y puede denominarse audio basado en canal. En este caso, el sonido se representa como una serie de fuentes discretas que se reproducirán a través de un número igual de altavoces en ángulos definidos del oyente. El creador/mezclador de contenido puede crear imágenes virtuales panoramizando señales entre canales adyacentes para proporcionar señales de dirección; las reflexiones adelantadas, la reverberación, etc., se pueden mezclar en muchos canales para proporcionar apuntes de dirección y ambientales.
Los vástagos sin procesar con metadatos de posición son un formato de distribución, y también pueden denominarse audio basado en objeto. En este formato, se representan distintas fuentes de sonido "con micrófono cercano" junto con metadatos de posición y ambientales. Las fuentes virtuales se renderizan en base a los metadatos, el equipo de reproducción y el entorno de escucha.
El formato de audio adaptativo es un híbrido del formato de panoramización multicanal y el formato de vástagos sin procesar. El método de renderización es la panorámica multicanal. Para los canales de audio, la renderización (panoramización) se produce en el momento de la creación, mientras que para los objetos la renderización (panoramización) se produce durante la reproducción.
Formato de transmisión de audio adaptativo y metadatos
Como se indicó anteriormente, los metadatos se generan durante la etapa de creación para codificar cierta información posicional para los objetos de audio y para acompañar a un programa de audio que ayuda a renderizar el programa de audio, y, en particular, para describir el programa de audio de una manera que permita renderizar el programa de audio en una amplia variedad de equipos de reproducción y entornos de reproducción. Los metadatos se generan para un programa dado y para los editores y mezcladores que crean, recopilan, editan y manipulan el audio durante la postproducción. Una característica importante del formato de audio adaptativo es la capacidad de controlar cómo se traducirá el audio a los sistemas y entornos de reproducción que difieren del entorno de mezcla. En particular, una sala de cine dada puede tener menores capacidades que el entorno mixto.
El renderizador de audio adaptativo está diseñado para hacer el mejor uso del equipo disponible para recrear la intención del mezclador. Además, las herramientas de autoría de audio adaptativo permiten que el mezclador obtenga una vista previa y ajuste cómo se renderizará la mezcla en una variedad de configuraciones de reproducción. Todos los valores de metadatos se pueden condicionar al entorno de reproducción y a la configuración de los altavoces. Por ejemplo, se puede especificar un nivel de mezcla diferente para un elemento de audio dado en base a la configuración o al modo de reproducción. La lista de modos de reproducción condicionados es ampliable e incluye lo siguiente: (1) reproducción basada únicamente en canales: 5.1, 7.1, 7.1 (altura), 9.1; y (2) reproducción de altavoces discretos: 3D, 2D (sin altura).
Los metadatos controlan o dictan diferentes aspectos del contenido de audio adaptativo y están organizados en base a diferentes tipos que incluyen: metadatos de programa, metadatos de audio y metadatos de renderización (para canal y para objeto). Cada tipo de metadatos incluye uno o más elementos de metadatos que proporcionan valores para las características a las que hace referencia un identificador (ID). La figura 5 es una tabla que enumera los tipos de metadatos y los elementos de metadatos asociados para el sistema de audio adaptativo.
Como se muestra en la tabla 500 de la figura 5, el primer tipo de metadatos consiste en los metadatos del programa, e incluye elementos de metadatos que especifican la velocidad de trama, el cómputo de pistas, la descripción del canal ampliable y la descripción de la etapa de mezcla. El elemento de metadatos de velocidad de trama especifica la velocidad de las tramas de contenido de audio en unidades de tramas por segundo (fps). El formato de audio sin procesar no necesita incluir el encuadre del audio o los metadatos, ya que el audio se proporciona como pistas completas (duración de un carrete o función completa) en lugar de segmentos de audio (duración de un objeto). El formato sin procesar tiene que llevar toda la información necesaria para permitir que el codificador de audio adaptativo trame el audio y los metadatos, incluyendo la velocidad de trama real. La tabla 1 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos de velocidad de trama.
Tabla 1
Figure imgf000018_0001
El elemento de metadatos de cómputo de pistas indica el número de pistas de audio en una trama. Un decodificador/procesador de audio adaptativo de ejemplo puede soportar hasta 128 pistas de audio simultáneas, aunque que el formato de audio adaptativo soportará cualquier número de pistas de audio. La tabla 2 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos del cómputo de pistas.
Tabla 2
Figure imgf000018_0002
El audio basado en canal se puede asignar a canales no estándar y el elemento de metadatos de descripción de canal ampliable permite que las mezclas utilicen nuevas posiciones de canal. Para cada canal de ampliación, se proporcionarán los siguientes metadatos de la manera que se muestra en la tabla 3:
Tabla 3
Figure imgf000018_0003
El elemento de metadatos de descripción de la etapa de mezcla especifica la frecuencia a la que un altavoz en particular produce la mitad de la potencia de la banda de paso. La tabla 4 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos de descripción de etapa de mezcla, donde LF = Baja frecuencia; h F = alta frecuencia; punto 3dB = borde de la banda de paso del altavoz.
Tabla 4
Figure imgf000019_0001
Como se muestra en la figura 5, el segundo tipo de metadatos son los metadatos de audio. Cada elemento de audio basado en canal o en objetos consta de metadatos y esencia de audio. La esencia del audio es un torrente monofónico de audio que va en una de las muchas pistas de audio. Los metadatos asociados describen cómo se almacena la esencia de audio (metadatos de audio, por ejemplo, frecuencia de muestreo) o cómo se debe renderizar (metadatos de renderización, por ejemplo, la posición deseada de la fuente de audio). En general, las pistas de audio son continuas a lo largo de la duración del programa de audio. El editor o mezclador del programa es responsable de asignar elementos de audio a las pistas. Se espera que el uso de pistas sea escaso, es decir, que el uso medio de pistas simultáneas puede ser sólo de 16 a 32. En una implantación típica, el audio se transmitirá de manera eficiente utilizando un codificador sin pérdidas. Sin embargo, son posibles implantaciones alternativas, por ejemplo, transmitir datos de audio no codificados o datos de audio codificados con pérdidas. En una implantación típica, el formato consta de hasta 128 pistas de audio donde cada pista tiene una frecuencia de muestreo única y un sistema de codificación único. Cada pista tiene la duración de la característica (sin soporte explícito de carrete). El mapeo de objetos a pistas (multiplexación de tiempo) es responsabilidad del creador de contenido (mezclador).
Como se muestra en la figura 3, los metadatos de audio incluyen los elementos de frecuencia de muestreo, profundidad de bits y sistemas de codificación. La tabla 5 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos de frecuencia de muestreo.
Tabla 5
Figure imgf000019_0002
La tabla 6 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos de profundidad de bits (para PCM y compresión sin pérdidas).
Tabla 6
Figure imgf000020_0001
La tabla 7 muestra el ID, los valores de ejemplo y la descripción del elemento de metadatos del sistema de codificación.
Tabla 7
Figure imgf000020_0002
Como se muestra en la figura 5, el tercer tipo de metadatos es el de los metadatos de renderización. Los metadatos de renderización especifican valores que ayudan al renderizador a coincidir lo más posible con la intención del mezclador original, independientemente del entorno de reproducción. El conjunto de elementos de metadatos es diferente para el audio basado en canal y el audio basado en objeto. Un primer campo de metadatos de renderización selecciona entre los dos tipos de audio: basado en canal o basado en objeto, como se muestra en la tabla 8.
Tabla 8
Figure imgf000020_0003
Los metadatos de renderización para el audio basado en canal comprenden un elemento de metadatos de posición que especifica la posición de la fuente de audio como una o más posiciones de altavoz. La tabla 9 muestra el ID y los valores del elemento de metadatos de posición para el caso basado en canal.
Tabla 9
Figure imgf000020_0004
Los metadatos de renderización para el audio basado en canal comprenden también un elemento de control de renderización que especifica ciertas características con respecto a la reproducción de audio basado en canal, como se muestra en la tabla 10.
Tabla 10
Figure imgf000020_0005
Figure imgf000021_0001
Para el audio basado en objeto, los metadatos incluyen elementos análogos a los del audio basado en canal. La tabla 11 proporciona el ID y los valores del elemento de metadatos de posición del objeto. La posición del objeto se describe de una de estas tres maneras: con coordenadas tridimensionales; con un plano y coordenadas bidimensionales; o con una línea y una coordenada unidimensional. El método de renderización puede adaptarse en base al tipo de información de posición.
Tabla 11
Figure imgf000021_0002
El ID y los valores para los elementos de metadatos de control de renderización de objetos se muestran en la tabla 12. Estos valores proporcionan medios adicionales para controlar u optimizar la renderización de audio basado en objeto.
Tabla 12
Figure imgf000021_0003
Figure imgf000022_0001
Los metadatos descritos anteriormente e ilustrados en la figura 5 se generan y almacenan como uno o más archivos que están asociados o indexados con el contenido de audio correspondiente, de modo que los torrentes de audio son procesados por el sistema de audio adaptativo interpretando los metadatos generados por el mezclador. Cabe señalar que los metadatos descritos anteriormente son un conjunto de ejemplo de ID, valores y definiciones, y que se pueden incluir otros elementos de metadatos adicionales para su uso en el sistema de audio adaptativo.
Se asocian dos (o más) conjuntos de elementos de metadatos con cada uno de los torrentes de audio basados en canales y objetos. Se aplica un primer conjunto de metadatos a la pluralidad de torrentes de audio para una primera condición del entorno de reproducción, y se aplica un segundo conjunto de metadatos a la pluralidad de torrentes de audio para una segunda condición del entorno de reproducción. El segundo o subsiguiente conjunto de elementos de metadatos reemplaza al primer conjunto de elementos de metadatos para un torrente de audio dado en base a la condición del entorno de reproducción. La condición puede incluir factores tales como el tamaño de la sala, la forma, la composición del material dentro de la sala, la ocupación actual y la densidad de personas en la sala, las características del ruido ambiental, las características de la luz ambiental y cualquier otro factor que pueda afectar al sonido o incluso al estado de ánimo del entorno de reproducción.
Postproducción y masterización
La etapa 110 de renderización del sistema 100 de procesamiento de audio adaptativo puede incluir pasos de postproducción de audio que conducen a la creación de una mezcla final. En una aplicación de cine, las tres categorías principales de sonido que se utilizan en una mezcla de películas son el diálogo, la música y los efectos. Los efectos consisten en sonidos que no son diálogos ni música (por ejemplo, ruido ambiental, ruido de fondo/escena). El diseñador de sonido puede grabar o sintetizar los efectos de sonido o pueden obtenerse de bibliotecas de efectos. Un subgrupo de efectos que involucran fuentes de ruido específicas (por ejemplo, pasos, puertas, etc.) se conocen como Foley y son interpretados por actores de Foley. Los diferentes tipos de sonido son marcados y panoramizados en consecuencia por los ingenieros de grabación.
La figura 6 ilustra un flujo de trabajo de ejemplo para un proceso de posproducción en un sistema de audio adaptativo. Como se muestra en el diagrama 600, todos los componentes de sonido individuales de la música, el diálogo, el Foley y los efectos se reúnen en la sala de doblaje durante la mezcla final 606, y el mezclador o los mezcladores 604 de regrabación usa/n las mezclas previas (también conocidas como la 'mezcla menos') junto con los objetos de sonido individuales y los datos de posición para crear vástagos como una forma de agrupar, por ejemplo, diálogos, música, efectos, Foley y sonidos de fondo. Además de formar la mezcla final 606, la música y todos los vástagos de efectos pueden usarse como base para crear versiones dobladas de la película. Cada vástago consta de un lecho basado en canal y de varios objetos de audio con metadatos. Los vástagos se combinan para formar la mezcla final. Utilizando información de panoramización de objetos tanto de la estación de trabajo de audio como de la mesa de mezclas, la unidad 608 de renderización y masterización renderiza el audio a las ubicaciones de altavoz en la sala de doblaje. Esta renderización permite a los mezcladores oír cómo se combinan los lechos basados en canal y los objetos de audio, y proporciona también la capacidad de renderizar para diferentes configuraciones. El mezclador puede usar metadatos condicionales, que por defecto son los perfiles relevantes, para controlar cómo se renderiza el contenido en los canales envolventes. De esta manera, los mezcladores mantienen el control total de cómo se reproduce la película en todos los entornos escalables. Puede incluirse un paso de monitorización después del paso 604 de regrabación y del paso 606 de mezcla final, después de uno o de ambos, para permitir que el mezclador escuche y evalúe el contenido intermedio generado durante cada una de estas etapas.
Durante la sesión de masterización, los vástagos, los objetos y los metadatos se juntan en un paquete 614 de audio adaptativo, que es producido por el maestro 610 de impresión. Este paquete también contiene la mezcla 612 de sonido envolvente de sala compatible con versiones anteriores (versiones heredadas 5.1 o 7.1). La unidad 608 de renderización/masterización (r Mu ) puede renderizar esta salida si se desea; se elimina por ello la necesidad de pasos adicionales de flujo de trabajo en la generación de entregables existentes basados en canal. Los archivos de audio se empaquetan utilizando el embalaje de formato de intercambio de material (MXF) estándar. El archivo maestro de mezcla de audio adaptativo también se puede utilizar para generar otros entregables, tales como mezclas estéreo o multicanal de consumo. Los perfiles inteligentes y los metadatos condicionales permiten renderizaciones controladas que pueden reducir significativamente el tiempo requerido para crear tales mezclas.
Se puede usar un sistema de empaquetado para crear un paquete de cine digital para los entregables que incluye una mezcla de audio adaptativo. Los archivos de pistas de audio pueden bloquearse juntos para contribuir a impedir errores de sincronización con los archivos de pistas de audio adaptativos. Ciertos territorios requieren la adición de archivos de pistas durante la fase de empaquetado, por ejemplo, la adición de pistas para personas con discapacidad auditiva (HI) o de narración para personas con discapacidad visual (VI-N) al archivo de pista de audio principal.
La matriz de altavoces en el entorno de reproducción puede comprender cualquier cantidad de altavoces de sonido envolvente, colocados y designados de acuerdo con los estándares de sonido envolvente establecidos. También se puede colocar cualquier cantidad de altavoces adicionales para una renderización precisa del contenido de audio basado en objeto en base a las condiciones del entorno de reproducción. Estos altavoces adicionales pueden ser configurados por un ingeniero de sonido, y esta configuración se proporciona al sistema en forma de un archivo de configuración que es utilizado por el sistema para renderizar los componentes basados en objetos del audio adaptativo a un altavoz o altavoces específico/s dentro de la matriz general de altavoces. El archivo de configuración incluye al menos una lista de designaciones de altavoces y un mapeo de canales para altavoces individuales, información en relación con la agrupación de altavoces y un mapeo del tiempo de ejecución basado en la posición relativa de los altavoces al entorno de reproducción. El mapeo en tiempo de ejecución es utilizado por una característica de ajuste del sistema que renderiza el contenido de audio basado en objeto de fuente puntual a un altavoz específico que está más cerca de la ubicación percibida del sonido según lo previsto por el ingeniero de sonido.
La figura 7 es un diagrama de un flujo de trabajo de ejemplo para un proceso de empaquetado de cine digital que utiliza archivos de audio adaptativos. Como se muestra en el diagrama 700, los archivos de audio que comprenden tanto los archivos de audio adaptativo como los archivos de audio de sonido envolvente 5.1 o 7.1 se meten en un bloque 704 de embalaje/encriptación. Tras la creación del paquete de cine digital en el bloque 706, el archivo PCM MXF (con las pistas adicionales apropiadas adjuntas) se encripta utilizando especificaciones SMPTE de acuerdo con la práctica existente. La MXF de audio adaptativo está empaquetada como un archivo de pista auxiliar y está opcionalmente encriptada usando una clave de contenido simétrica según la especificación SMPTE. Este único DCP 708 se puede enviar a cualquier servidor compatible con iniciativas de cine digital (DCI). En general, cualesquiera instalaciones que no estén adecuadamente equipadas simplemente ignorarán el archivo de pista adicional que contiene la banda sonora de audio adaptativo, y utilizarán el archivo de pista de audio principal existente para la reproducción estándar. Las instalaciones equipadas con procesadores de audio adaptativos apropiados podrán asimilar y reproducir la banda sonora de audio adaptativo cuando corresponda, volviendo a la pista de audio estándar según sea necesario. El componente 704 de embalaje/encriptación también puede proporcionar entrada directamente a un bloque 710 KDM de distribución para generar una clave de seguridad apropiada para su uso en el servidor de cine digital. Otros elementos de película o archivos, tales como subtítulos 714 e imágenes 716, se pueden embalar y encriptar junto con los archivos 702 de audio. En este caso, se pueden incluir ciertos pasos de procesamiento, tales como la compresión 712 en el caso de archivos 716 de imagen.
Con respecto a la gestión de contenido, el sistema 100 de audio adaptativo permite al creador de contenido crear objetos de audio individuales y añadir información sobre el contenido que se puede transferir al sistema de reproducción. Esto permite una gran flexibilidad en la gestión de contenido de audio. Desde el punto de vista de la gestión de contenido, los métodos de audio adaptativo permiten varias funciones diferentes. Estas incluyen cambiar el idioma del contenido reemplazando únicamente el objeto de diálogo para ahorro espacio, eficiencia de descarga, adaptación de reproducción geográfica, etc. Las películas, la televisión y otros programas de entretenimiento se distribuyen típicamente a nivel internacional. Esto a menudo requiere que se cambie el idioma del contenido según el lugar donde se reproducirá (francés para las películas que se proyectan en Francia, alemán para los programas de televisión que se proyectan en Alemania, etc.). Hoy en día, esto a menudo requiere la creación, empaquetado y distribución de una banda sonora de audio completamente independiente. Con el audio adaptativo y su concepto inherente de objetos de audio, el diálogo para una pieza de contenido podría ser un objeto de audio independiente. Esto permite que el idioma del contenido se cambie fácilmente sin actualizar o alterar otros elementos de la banda sonora de audio, como música, efectos, etc. Esto no sólo se aplicaría a idiomas extranjeros, sino también al lenguaje inapropiado para ciertos públicos (por ejemplo, programas de televisión para niños, películas de aerolíneas, etc.), publicidad dirigida, etc.
Consideraciones sobre la instalación y el equipo
El formato de archivo de audio adaptativo y los procesadores asociados permiten cambios en la forma en que se instala, calibra y mantiene el equipo de sala de cine. Con la introducción de muchas más salidas de altavoz potenciales, cada una ecualizada y equilibrada individualmente, existe la necesidad de una ecualización de sala automática inteligente y eficiente en el tiempo, que se pueda realizar mediante la capacidad de ajustar manualmente cualquier ecualización de sala automatizada. El sistema de audio adaptativo utiliza un motor optimizado de ecualización de banda de 1/12n octavas. Se pueden procesar hasta 64 salidas para equilibrar con mayor precisión el sonido en el cine. El sistema también permite la monitorización programada de las salidas de los altavoces individuales, desde la salida del procesador de cine hasta el sonido reproducido en el auditorio. Se pueden crear alertas locales o de red para garantizar que se tomen las medidas adecuadas. El sistema flexible de renderización puede eliminar automáticamente un altavoz o amplificador dañado de la cadena de reproducción y renderizar a su alrededor, permitiendo que el espectáculo continúe.
El procesador de cine se puede conectar al servidor de cine digital con conexiones de audio principales 8xAES existentes y una conexión Ethernet para retrasmitir datos de audio adaptativo. La reproducción de contenido envolvente 7.1 o 5.1 utiliza las conexiones PCM existentes. Los datos de audio adaptativo se retransmiten a través de Ethernet al procesador de cine para decodificar y renderizar, y la comunicación entre el servidor y el procesador de cine permite identificar y sincronizar el audio. En caso de cualquier problema con la reproducción de la pista de audio adaptativo, el sonido se revierte al audio PCM Dolby Surround 7.1 o 5.1.
Aunque se han descrito ejemplos con respecto a los sistemas de sonido envolvente 5.1 y 7.1, debe tenerse en cuenta que se pueden usar muchas otras configuraciones envolventes presentes y futuras junto con los ejemplos que incluyen 9.1, 11.1 y 13.1 y más allá.
El sistema de audio adaptativo está diseñado para permitir que tanto los creadores de contenido como los expositores decidan cómo se va a renderizar el contenido de sonido en diferentes configuraciones de altavoces de reproducción. El número ideal de canales de salida de altavoz utilizados variará de acuerdo con el tamaño de la sala. De este modo, la colocación recomendada de los altavoces depende de muchos factores, tales como el tamaño, la composición, la configuración de los asientos, el entorno, la cantidad media de público, etc. Se proporcionan aquí ejemplos o configuraciones y trazados de altavoces representativos con fines ilustrativos únicamente, que no pretenden limitar el alcance de ninguna de las realizaciones reivindicadas.
El trazado recomendado de los altavoces para un sistema de audio adaptativo sigue siendo compatible con los sistemas de cine existentes, lo cual es vital como para no comprometer la reproducción de los formatos basados en canal 5.1 y 7.1 existentes. Con el fin de preservar la intención del ingeniero de sonido de audio adaptativo y la intención de los mezcladores de contenido 7.1 y 5.1, las posiciones de los canales de pantalla existentes no deben alterarse de manera demasiado radical en un esfuerzo por reforzar o acentuar la introducción de nuevas ubicaciones de altavoces. En contraste con el uso de los 64 canales de salida disponibles en su totalidad, el formato de audio adaptativo es capaz de ser renderizado con precisión en el cine para configuraciones de altavoces tales como 7.1, por lo que incluso permite que el formato (y los beneficios asociados) se utilicen en salas de cine existentes sin cambios en amplificadores o altavoces.
Las diferentes ubicaciones de los altavoces pueden tener una eficacia diferente dependiendo del diseño de la sala de cine, por lo que en la actualidad no existe un número o ubicación ideal de canales especificados por la industria. El audio adaptativo está pensado para ser verdaderamente adaptable y capaz de reproducirse con precisión en diferentes auditorios, ya sea que tengan un número limitado de canales de reproducción o muchos canales con configuraciones altamente flexibles.
La figura 8 es una vista aérea 800 de un trazado de ejemplo de ubicaciones de altavoces sugeridas, para su uso con un sistema de audio adaptativo en un auditorio típico, y la figura 9 es una vista frontal 900 del trazado de ejemplo de ubicaciones sugeridas para los altavoces en la pantalla del auditorio. La posición de referencia a la que se hace referencia a continuación corresponde a una posición de 2/3 de la distancia desde la pantalla hasta la pared trasera, en la línea central de la pantalla. Los altavoces 801 de pantalla estándar se muestran en sus posiciones habituales con respecto a la pantalla. Los estudios de la percepción de la elevación en el plano de la pantalla han demostrado que los altavoces adicionales 804 detrás de la pantalla, tales como los altavoces de pantalla del centro izquierdo (Lc) y del centro derecho (Rc) (en las ubicaciones de los canales izquierda extra y derecha extra en formatos de película de 70 mm), puede resultar beneficioso para crear panorámicas más suaves en la pantalla. De este modo, se recomiendan tales altavoces opcionales, especialmente en auditorios con pantallas de más de 12 m (40 pies) de ancho. Todos los altavoces de la pantalla deben inclinarse de tal modo que apunten hacia la posición de referencia. La ubicación recomendada del subwoofer 810 detrás de la pantalla debe permanecer sin cambios, incluido el mantenimiento de la ubicación asimétrica de la caja, con respecto al centro de la sala, para impedir la estimulación de ondas estacionarias. Se pueden colocar subwoofers 816 adicionales en la parte trasera de la sala de cine.
Los altavoces envolventes 802 deben cablearse individualmente de nuevo al bastidor del amplificador, y amplificarse individualmente cuando sea posible con un canal dedicado de amplificación de potencia que coincida con el manejo de potencia del altavoz de acuerdo con las especificaciones del fabricante. Idealmente, los altavoces de sonido envolvente deben especificarse para manejar un SPL aumentado para cada altavoz individual, y también con una respuesta de frecuencia más amplia cuando sea posible. Como regla general para una sala de cine de tamaño medio, el espacio entre los altavoces envolventes debe estar entre 2 y 3 m (6'6 "y 9'9"), con los altavoces envolventes izquierdo y derecho colocados simétricamente. Sin embargo, la separación de los altavoces de sonido envolvente se considera más eficazmente como ángulos subtendidos de un oyente determinado entre altavoces adyacentes, en lugar de utilizar distancias absolutas entre altavoces. Para una reproducción óptima en todo el auditorio, la distancia angular entre los altavoces adyacentes debe ser de 30 grados o menos, referenciada desde cada una de las cuatro esquinas del área de escucha principal. Se pueden conseguir buenos resultados con un espaciado de hasta 50 grados. Para cada zona de sonido envolvente, los altavoces deben mantener el espaciado lineal adyacente igual al área de asientos siempre que sea posible. El espaciado lineal más allá del área de escucha, por ejemplo entre la primera fila y la pantalla, puede ser ligeramente mayor. La figura 11 es un ejemplo de un posicionamiento de los altavoces envolventes superiores 808 y de los altavoces envolventes laterales 806 con respecto a la posición de referencia.
Los altavoces de sonido envolvente laterales adicionales 806 deben montarse más cerca de la pantalla de lo que dicta la práctica actualmente recomendada de empezar aproximadamente a un tercio de la distancia que media con la parte posterior del auditorio. Estos altavoces no se utilizan como envolventes laterales durante la reproducción de pistas de sonido Dolby Surround 7.1 o 5.1, pero permitirán una transición suave y una mejor coincidencia de timbres al panoramizar objetos desde los altavoces de la pantalla a las zonas envolventes. Para maximizar la impresión de espacio, las matrices de sonido envolvente deben colocarse lo más bajo posible, sujetas a las siguientes restricciones: la colocación vertical de los altavoces de sonido envolvente en la parte frontal de la matriz debe estar razonablemente cerca de la altura del centro acústico del altavoz de la pantalla, y lo suficientemente alto para mantener una buena cobertura en todo el área de los asientos de acuerdo con la directividad del altavoz. La colocación vertical de los altavoces de sonido envolvente debe ser tal que formen una línea recta de adelante a atrás y (típicamente) inclinados hacia arriba para que la elevación relativa de los altavoces de sonido envolvente por encima de los oyentes se mantenga hacia la parte posterior del cine a medida que aumenta la elevación de los asientos, como se muestra en la figura 10, que es una vista lateral de un trazado de ejemplo de ubicaciones de altavoces sugeridas para su uso con un sistema de audio adaptativo en un auditorio típico. En la práctica, esto se puede conseguir de la manera más simple eligiendo la elevación para los altavoces envolventes laterales más delanteros y más traseros, y colocando los altavoces restantes en una línea entre estos puntos.
Con el fin de proporcionar una cobertura óptima para cada altavoz a través del área de asientos, el envolvente lateral 806 y los altavoces traseros 816 y los envolventes superiores 808 deben apuntar hacia la posición de referencia en la sala de cine, bajo pautas definidas con respecto a espaciado, posición, ángulo, etc.
El formato y el sistema de cine de audio adaptativo descrito consiguen niveles mejorados de inmersión y participación del público con respecto a los sistemas actuales al ofrecer nuevas y potentes herramientas de autoría a los mezcladores, y un nuevo procesador de cine con un motor de renderización flexible que optimiza la calidad de audio y los efectos envolventes de la banda sonora en relación con el trazado y las características de los altavoces de cada sala. Además, el sistema mantiene la compatibilidad con versiones anteriores y minimiza el impacto en los flujos de trabajo de producción y distribución actuales.
Aunque se han descrito realizaciones con respecto a ejemplos e implantaciones en un entorno de cine en el que el contenido de audio adaptativo está asociado con el contenido de la película para su uso en sistemas de procesamiento de cine digital, cabe señalar que las realizaciones también se pueden implantar en entornos de cine. El contenido de audio adaptativo que comprende audio basado en objeto y audio basado en canal puede usarse junto con cualquier contenido relacionado (audio, video, gráfico, etc. asociado), o puede constituir contenido de audio independiente. El entorno de reproducción puede ser cualquier entorno de escucha apropiado, desde auriculares o monitores de campo cercano hasta salas pequeñas o grandes, automóviles, estadios al aire libre, salas de conciertos, etc.
Los aspectos del sistema 100 pueden implantarse en un entorno de red de procesamiento de sonido basado en ordenador apropiado para procesar archivos de audio digitales o digitalizados. Partes del sistema de audio adaptativo pueden incluir una o más redes que comprenden cualquier número deseado de máquinas individuales, incluyendo uno o más enrutadores (no mostrados) que sirven para almacenar en memoria intermedia y enrutar los datos transmitidos entre los ordenadores. Tal red puede estar construida sobre diversos protocolos de red diferentes, y puede ser Internet, una red de área amplia (WAN), una red de área local (LAN) o cualquier combinación de las mismas. En una realización en la que la red comprende Internet, pueden configurarse una o más máquinas para acceder a Internet a través de programas de navegador web.
Pueden implantarse uno o más de los componentes, bloques, procesos u otros componentes funcionales a través de un programa informático que controla la ejecución de un dispositivo informático del sistema basado en un procesador. También debe tenerse en cuenta que las diversas funciones divulgadas en el presente documento pueden describirse utilizando cualquier número de combinaciones de hardware, firmware y/o como datos y/o instrucciones incorporadas en diversos medios legibles por máquina o por ordenador, en términos de su comportamiento, transferencia de registro, componente lógico y/u otras características. Los medios legibles por ordenador en los que se pueden incorporar tales datos y/o instrucciones formateados incluyen, pero no se limitan a, medios de almacenamiento físicos (no transitorios), no volátiles en diversas formas, tales como medios de almacenamiento ópticos, magnéticos o semiconductores.
A menos que el contexto requiera claramente lo contrario, a lo largo de la descripción y las reivindicaciones, las palabras "comprende", "que comprende" y similares deben interpretarse en un sentido inclusivo en oposición a un sentido exclusivo o exhaustivo; que es como decir que deben interpretarse en el sentido de "que incluyen, pero no se limitan a". Las palabras que usan el número singular o plural también incluyen el número plural o singular respectivamente. Además, las palabras "aquí", "a continuación", "anteriormente", "más adelante" y palabras de similar importancia se refieren a esta solicitud en su conjunto y no a partes particulares de esta solicitud. Cuando la palabra "o" se usa en referencia a una lista de dos o más elementos, esa palabra cubre todas las siguientes interpretaciones de la palabra: cualquiera de los elementos de la lista, todos los elementos de la lista y cualquier combinación de los elementos de la lista.
Aunque se han descrito una o más implantaciones a modo de ejemplo y en términos de las realizaciones específicas, debe entenderse que una o más implantaciones no se limitan a las realizaciones divulgadas. Por el contrario, se pretende cubrir diversas modificaciones y disposiciones similares, como resultará evidente para el experto en la técnica.

Claims (15)

REIVINDICACIONES
1. Un sistema para procesar señales de audio, que comprende un componente (106) de autoría configurado para
recibir una pluralidad de señales de audio de un programa de audio, definiéndose un programa de audio como un conjunto completo de canales de altavoz y/o canales de objeto y metadatos asociados que describe una presentación de audio espacial deseada, en la que cada canal de altavoz y cada canal de objeto comprende una señal de audio;
generar una mezcla (208) de audio adaptativo para el programa de audio que comprende una pluralidad de torrentes monofónicos de audio y uno o más conjuntos de metadatos asociados con cada uno de la pluralidad de torrentes monofónicos de audio y que especifica una ubicación de reproducción de un torrente respectivo de audio monofónico, que incluye un primer conjunto de metadatos y un segundo conjunto de metadatos asociado con uno o más torrentes de la pluralidad de torrentes monofónicos de audio; en el que al menos uno de la pluralidad de torrentes monofónicos de audio se identifica como audio basado en canal, y en el que los otros torrentes, incluido al menos uno, de la pluralidad de torrentes monofónicos de audio se identifican como audio basado en objeto, y en el que la ubicación de reproducción del audio basado en canal comprende designaciones de altavoz de los altavoces (801, 802, 804, 806, 808, 810, 816) en una matriz de altavoces, y en el que la ubicación de reproducción del audio basado en objeto comprende una ubicación en el espacio tridimensional con relación a un entorno de reproducción que contiene la matriz de altavoces; y en el que adicionalmente el primer conjunto de metadatos se aplicará a uno o más de la pluralidad de torrentes monofónicos de audio para una primera condición del entorno de reproducción, y el segundo conjunto de metadatos se aplicará a uno o más de la pluralidad de torrentes monofónicos de audio para una segunda condición del entorno de reproducción; y
encapsular la pluralidad de torrentes monofónicos de audio y los al menos dos conjuntos de metadatos en un torrente de bits para su transmisión a un sistema (110) de renderización configurado para renderizar la pluralidad de torrentes monofónicos de audio para una pluralidad de alimentaciones de altavoces correspondientes a los altavoces (801, 802, 804, 806, 808, 810, 816) del entorno de reproducción de acuerdo con los al menos dos conjuntos de metadatos basados en una condición del entorno de reproducción.
2. Un sistema para procesar señales de audio, que comprende un sistema (110) de renderización configurado para
recibir un torrente de bits que encapsula una pluralidad de torrentes monofónicos de audio y al menos dos conjuntos de metadatos en un torrente de bits desde un componente (106) de autoría configurado para recibir una pluralidad de señales de audio de un programa de audio, definiéndose un programa de audio como un conjunto completo de canales de altavoz y/o de canales de objeto y de metadatos asociados que describe una presentación de audio espacial deseada, en el que cada canal de altavoz y cada canal de objeto comprende una señal de audio, estando configurado adicionalmente el componente de autoría para generar para el programa de audio una pluralidad de torrentes monofónicos de audio y uno o más conjuntos de metadatos asociados con cada uno de la pluralidad de torrentes monofónicos de audio y especificando una ubicación de reproducción de un respectivo torrente monofónico de audio, incluyendo un primer conjunto de metadatos y un segundo conjunto de metadatos asociados con uno o más de la pluralidad de torrentes monofónicos de audio; en el que al menos uno de la pluralidad de torrentes monofónicos de audio se identifica como audio basado en canal y en el que los otros, incluido al menos uno, de la pluralidad de torrentes monofónicos de audio se identifican como audio basado en objeto, y en el que la ubicación de reproducción del audio basado en canal comprende designaciones de altavoz de los altavoces (801, 802, 804, 806, 808, 810, 816) en una matriz de altavoces, y la ubicación de reproducción del audio basado en objeto comprende una ubicación en el espacio tridimensional con relación a un entorno de reproducción que contiene la matriz de altavoces; y adicionalmente en el que el primer conjunto de metadatos se aplica a uno o más de la pluralidad de torrentes monofónicos de audio para una primera condición del entorno de reproducción, y el segundo conjunto de metadatos se aplica al uno o más de la pluralidad [s/c.] de torrentes monofónicos de audio para una segunda condición del entorno de reproducción; y
renderizar la pluralidad de torrentes monofónicos de audio para una pluralidad de alimentaciones de altavoz correspondientes a los altavoces (801, 802, 804, 806, 808, 810, 816) en el entorno de reproducción de acuerdo con los al menos dos conjuntos de metadatos basados en una condición del entorno de reproducción.
3. Un sistema para procesar señales de audio, que comprende:
un sistema para procesar señales de audio de acuerdo con la reivindicación 1 que comprende un componente (106) de autoría y un sistema para procesar señales de audio de acuerdo con la reivindicación 2 que comprende un sistema (110) de renderización, en el que el sistema (110) de renderización del sistema para procesar señales de audio de acuerdo con la reivindicación 2 está acoplado al componente (106) de autoría del sistema para procesar señales de audio de la reivindicación 1, y en el que adicionalmente se aplica por defecto el primer conjunto de metadatos a uno o más de la pluralidad de torrentes monofónicos de audio, y en el que el segundo conjunto de metadatos está asociado con la segunda condición del entorno de reproducción y se aplica a uno o más de la pluralidad de torrentes monofónicos de audio en lugar del primer conjunto de metadatos si una condición del entorno de reproducción coincide con la segunda condición del entorno de reproducción, en el que la segunda condición es una condición específica del entorno de reproducción.
4. El sistema de la reivindicación 3, en el que cada conjunto de metadatos incluye elementos de metadatos asociados con cada torrente basado en objeto, especificando, los elementos de metadatos, para cada torrente basado en objeto, los parámetros espaciales que controlan la reproducción de un sonido basado en objeto correspondiente, y que comprenden uno o más elementos de entre los siguientes: posición del sonido, ancho del sonido y velocidad del sonido; y en el que cada conjunto de metadatos incluye adicionalmente elementos de metadatos asociados con cada torrente basado en canal, y la matriz de altavoces comprende altavoces (801, 802, 804, 806, 808, 810, 816) dispuestos en una configuración de sonido envolvente definida, y en el que los elementos de metadatos asociados con cada torrente basado en canal comprenden designaciones de canales de sonido envolvente de los altavoces (801, 802, 804, 806, 808, 810, 816) de la matriz de altavoces de acuerdo con un estándar de sonido envolvente definido.
5. El sistema de la reivindicación 3, en el que el conjunto de altavoces incluye altavoces adicionales para la reproducción de torrentes basados en objeto que se colocan en el entorno de reproducción de acuerdo con las instrucciones de configuración de un usuario en base a la condición del entorno de reproducción, y en el que la condición de reproducción depende de variables que comprenden: el tamaño y la forma de una sala del entorno de reproducción, la ocupación, la composición del material y el ruido ambiental; y en el que el sistema recibe adicionalmente un archivo de configuración del usuario que incluye al menos una lista de designaciones de altavoces y un mapeo de canales a altavoces individuales (801, 802, 804, 806, 808, 810, 816) de la matriz de altavoces, información sobre la agrupación de altavoces y un mapeo basado en la posición relativa de los altavoces (801, 802, 804, 806, 808, 810, 816) en el entorno de reproducción.
6. El sistema de la reivindicación 3, en el que el componente (106) de autoría incluye una mesa de mezclas que tiene controles que el usuario puede manipular para especificar los niveles de reproducción de la pluralidad de torrentes monofónicos de audio que comprenden el contenido de audio original, y en el que los elementos de metadatos asociados con cada uno de los respectivos torrentes basados en objeto se genera automáticamente al meter los controles de la mesa de mezclas por parte del usuario.
7. El sistema de la reivindicación 3, en el que los conjuntos de metadatos incluyen metadatos para permitir la mezcla ascendente o descendente de al menos uno de los torrentes monofónicos de audio basados en canal y de los torrentes monofónicos de audio basados en objeto de acuerdo con un cambio de una primera configuración de la matriz de altavoces a una segunda configuración de la matriz de altavoces.
8. El sistema de la reivindicación 5, en el que los conjuntos de metadatos incluyen metadatos indicativos de un tipo de contenido de un torrente monofónico de audio; en el que el tipo de contenido se selecciona del grupo que consiste en: diálogo, música y efectos, y cada tipo de contenido está incorporado en un conjunto respectivo de torrentes basados en canal o de torrentes basados en objeto, y en el que, adicionalmente, los componentes de sonido de cada tipo de contenido son transmitidos a grupos de altavoces definidos de uno o más grupos de altavoces designados dentro de la matriz de altavoces.
9. El sistema de la reivindicación 8, en el que los altavoces (801, 802, 804, 806, 808, 810, 816) de la matriz de altavoces se colocan en posiciones específicas dentro del entorno de reproducción, y en el que los elementos de metadatos asociados con cada uno de los respectivos torrentes basados en objeto especifican que uno o más componentes de sonido se renderizan para la alimentación de altavoz para reproducción a través del altavoz más cercano a la ubicación prevista de reproducción del componente de sonido, según indican los metadatos de posición.
10. El sistema de la reivindicación 3, en el que la ubicación de reproducción comprende una posición espacial relativa a una pantalla dentro del entorno de reproducción, o una superficie que engloba el entorno de reproducción, y en el que la superficie comprende un plano frontal, un plano posterior, un plano izquierdo, un plano derecho, un plano superior y un plano inferior.
11. El sistema de la reivindicación 3, que comprende adicionalmente un códec (108) acoplado al componente (106) de autoría y al sistema de renderización y configurado para recibir la pluralidad de torrentes monofónicos de audio y los metadatos y para generar un único torrente de bits digital que contiene la pluralidad de torrentes monofónicos de audio de manera ordenada.
12. El sistema de la reivindicación 11, en el que el sistema de renderización comprende adicionalmente medios para seleccionar un algoritmo de renderización utilizado por el sistema de renderización, consistiendo, el algoritmo de renderización seleccionado del grupo, en: binaural, dipolo estéreo, Ambisonics, síntesis de campo de ondas (WFS), panoramización múltiple de canales, vástagos sin procesar con metadatos de posición, balance dual y panoramización de amplitud basada en vectores.
13. El sistema de la reivindicación 3, en el que la ubicación de reproducción para cada uno de la pluralidad de torrentes monofónicos de audio se especifica independientemente o bien con respecto a un marco de referencia egocéntrico o bien con respecto a un marco de referencia alocéntrico, en el que el marco de referencia egocéntrico se toma con relación a un oyente en el entorno de reproducción, y en el que el marco de referencia alocéntrico se toma con respecto a una característica del entorno de reproducción.
14. Un método de autoría de señales de audio para su renderización, que comprende:
recibir una pluralidad de señales de audio de un programa de audio, definiéndose un programa de audio como un conjunto completo de canales de altavoz y/o de canales de objeto y de metadatos asociados que describe una presentación de audio espacial deseada, en la que cada canal de altavoz y cada canal de objeto comprende una señal de audio;
generar una mezcla de audio adaptativo (208) para el programa de audio que comprende una pluralidad de torrentes monofónicos de audio y uno o más conjuntos de metadatos asociados con cada uno de la pluralidad de torrentes monofónicos de audio y especificar una ubicación de reproducción de un torrente monofónico respectivo de audio, incluyendo un primer conjunto de metadatos y un segundo conjunto de metadatos asociados con uno o más de la pluralidad de torrentes monofónicos de audio; en el que al menos uno de la pluralidad de torrentes monofónicos de audio se identifica como audio basado en canal y en el que los otros, incluido al menos uno, de la pluralidad de torrentes monofónicos de audio se identifican como audio basado en objeto, y en el que la ubicación de reproducción del audio basado en canal comprende designaciones de altavoz de los altavoces (801, 802, 804, 806, 808, 810, 816) en una matriz de altavoces, y la ubicación de reproducción del audio basado en objeto comprende una ubicación en el espacio tridimensional con relación a un entorno de reproducción que contiene la matriz de altavoces; y en el que, adicionalmente, el primer conjunto de metadatos se va a aplicar a uno o más de la pluralidad de torrentes monofónicos de audio para una primera condición del entorno de reproducción, y el segundo conjunto de metadatos se va a aplicar a uno o más de la pluralidad de torrentes monofónicos de audio para una segunda condición del entorno de reproducción; y
encapsular la pluralidad de torrentes monofónicos de audio y el uno o más conjuntos de metadatos en un torrente de bits para su transmisión a un sistema (110) de renderización configurado para renderizar la pluralidad de torrentes monofónicos de audio para una pluralidad de alimentaciones de altavoz correspondiente a altavoces (801, 802, 804 , 806, 808, 810, 816) en el entorno de reproducción de acuerdo con los al menos dos conjuntos de metadatos basados en una condición del entorno de reproducción.
15. Un método para renderizar señales de audio, que comprende:
recibir un torrente de bits que encapsula una pluralidad de torrentes monofónicos de audio y al menos dos conjuntos de metadatos en un torrente de bits desde un componente (106) de autoría configurado para recibir una pluralidad de señales de audio de un programa de audio, definiéndose un programa de audio como un conjunto completo de canales de altavoz y/o de canales de objeto y metadatos asociados que describe una presentación de audio espacial deseada, en la que cada canal de altavoz y cada canal de objeto comprende una señal de audio, estando configurado adicionalmente el componente de autoría para generar para el programa de audio una pluralidad de torrentes monofónicos de audio y uno o más conjuntos de metadatos asociados con cada uno de la pluralidad de torrentes monofónicos de audio, y especificar una ubicación de reproducción de un respectivo torrente monofónico de audio, incluyendo un primer conjunto de metadatos y un segundo conjunto de metadatos asociados con uno o más de la pluralidad de torrentes monofónicos de audio; en el que al menos uno de la pluralidad de torrentes monofónicos de audio se identifica como audio basado en canal y en el que los otros, incluyendo al menos uno, de la pluralidad de torrentes monofónicos de audio se identifican como audio basado en objeto, y en el que la ubicación de reproducción del audio basado en canal comprende designaciones de altavoz de los altavoces (801, 802, 804, 806, 808, 810, 816) en una matriz de altavoces, y la ubicación de reproducción del audio basado en objeto comprende una ubicación en el espacio tridimensional con relación a un entorno de reproducción que contiene la matriz de altavoces; y en el que, adicionalmente, el primer conjunto de metadatos se aplica al uno o más de la pluralidad de torrentes monofónicos de audio para una primera condición del entorno de reproducción, y el segundo conjunto de metadatos se aplica al uno o más de la [s/c.] pluralidad de torrentes monofónicos de audio para una segunda condición del entorno de reproducción; y
renderizar la pluralidad de torrentes monofónicos de audio para una pluralidad de alimentaciones de altavoz correspondiente a los altavoces (801, 802, 804, 806, 808, 810, 816) en el entorno de reproducción de acuerdo con los al menos dos conjuntos de metadatos basados en una condición del entorno de reproducción.
ES12743261T 2011-07-01 2012-06-27 Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo Active ES2871224T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161504005P 2011-07-01 2011-07-01
US201261636429P 2012-04-20 2012-04-20
PCT/US2012/044388 WO2013006338A2 (en) 2011-07-01 2012-06-27 System and method for adaptive audio signal generation, coding and rendering

Publications (1)

Publication Number Publication Date
ES2871224T3 true ES2871224T3 (es) 2021-10-28

Family

ID=46604526

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12743261T Active ES2871224T3 (es) 2011-07-01 2012-06-27 Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo

Country Status (22)

Country Link
US (12) US9179236B2 (es)
EP (3) EP3893521B1 (es)
JP (11) JP5912179B2 (es)
KR (9) KR102003191B1 (es)
CN (2) CN105792086B (es)
AR (1) AR086775A1 (es)
AU (7) AU2012279357B2 (es)
BR (2) BR122020001361B1 (es)
CA (3) CA2973703C (es)
DK (1) DK2727383T3 (es)
ES (1) ES2871224T3 (es)
HK (1) HK1219604A1 (es)
HU (1) HUE054452T2 (es)
IL (9) IL302167B1 (es)
MX (1) MX2013014684A (es)
MY (1) MY165933A (es)
PL (1) PL2727383T3 (es)
RU (3) RU2617553C2 (es)
SG (1) SG10201604679UA (es)
TW (5) TWI543642B (es)
UA (1) UA124570C2 (es)
WO (1) WO2013006338A2 (es)

Families Citing this family (307)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE534980C2 (sv) 2009-08-26 2012-03-06 Svenska Utvecklings Entreprenoeren Susen Ab Metod för att väcka en insomnad motorfordonsförare
RU2617553C2 (ru) 2011-07-01 2017-04-25 Долби Лабораторис Лайсэнзин Корпорейшн Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
WO2013192111A1 (en) 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9564138B2 (en) 2012-07-31 2017-02-07 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
US9826328B2 (en) 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
RU2602346C2 (ru) 2012-08-31 2016-11-20 Долби Лэборетериз Лайсенсинг Корпорейшн Рендеринг отраженного звука для объектно-ориентированной аудиоинформации
JP5985063B2 (ja) 2012-08-31 2016-09-06 ドルビー ラボラトリーズ ライセンシング コーポレイション レンダラーと個々に指定可能なドライバのアレイとの間の通信のための双方向相互接続
EP2891335B1 (en) 2012-08-31 2019-11-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
US9622011B2 (en) 2012-08-31 2017-04-11 Dolby Laboratories Licensing Corporation Virtual rendering of object-based audio
BR122021021500B1 (pt) * 2012-09-12 2022-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
RU2613731C2 (ru) 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
EP2936485B1 (en) 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
TWI635753B (zh) 2013-01-07 2018-09-11 美商杜比實驗室特許公司 使用向上發聲驅動器之用於反射聲音呈現的虛擬高度濾波器
CN109166587B (zh) * 2013-01-15 2023-02-03 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
KR102160218B1 (ko) * 2013-01-15 2020-09-28 한국전자통신연구원 사운드 바를 위한 오디오 신호 처리 장치 및 방법
WO2014112793A1 (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9959875B2 (en) * 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
US9640163B2 (en) * 2013-03-15 2017-05-02 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
US10038957B2 (en) * 2013-03-19 2018-07-31 Nokia Technologies Oy Audio mixing based upon playing device location
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
IL309028A (en) 2013-03-28 2024-02-01 Dolby Laboratories Licensing Corp Transform audio objects with visible size into arbitrary speaker arrays
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204683B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置、音響信号作成装置
JP6204680B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置、音響信号作成装置
JP2014204316A (ja) * 2013-04-05 2014-10-27 日本放送協会 音響信号再生装置、音響信号作成装置
JP6204682B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
JP6204681B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
JP6204684B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
KR20150139849A (ko) * 2013-04-05 2015-12-14 톰슨 라이센싱 몰입적 오디오를 위한 잔향 음장을 관리하기 위한 방법
WO2014171706A1 (ko) * 2013-04-15 2014-10-23 인텔렉추얼디스커버리 주식회사 가상 객체 생성을 이용한 오디오 신호 처리 방법
KR102547902B1 (ko) * 2013-04-26 2023-06-28 소니그룹주식회사 음성 처리 장치, 정보 처리 방법, 및 기록 매체
WO2014177202A1 (en) * 2013-04-30 2014-11-06 Huawei Technologies Co., Ltd. Audio signal processing apparatus
US9860669B2 (en) 2013-05-16 2018-01-02 Koninklijke Philips N.V. Audio apparatus and method therefor
JP6515087B2 (ja) 2013-05-16 2019-05-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理装置及び方法
WO2014184618A1 (en) * 2013-05-17 2014-11-20 Nokia Corporation Spatial object oriented audio apparatus
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
KR101410976B1 (ko) 2013-05-31 2014-06-23 한국산업은행 대사 또는 현장감 전달 목적에 따른 스피커 위치 지정 방법 및 그 장치
JP6022685B2 (ja) * 2013-06-10 2016-11-09 株式会社ソシオネクスト オーディオ再生装置及びその方法
US9705953B2 (en) * 2013-06-17 2017-07-11 Adobe Systems Incorporated Local control of digital signal processing
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9723425B2 (en) 2013-06-18 2017-08-01 Dolby Laboratories Licensing Corporation Bass management for audio rendering
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9883311B2 (en) 2013-06-28 2018-01-30 Dolby Laboratories Licensing Corporation Rendering of audio objects using discontinuous rendering-matrix updates
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US9858932B2 (en) 2013-07-08 2018-01-02 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
TWI560699B (en) * 2013-07-22 2016-12-01 Fraunhofer Ges Forschung Apparatus and method for efficient object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
PL3028474T3 (pl) 2013-07-30 2019-06-28 Dts, Inc. Dekoder matrycowy z panoramowaniem parami o stałej mocy
JP6055576B2 (ja) 2013-07-30 2016-12-27 ドルビー・インターナショナル・アーベー 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
CN110808055B (zh) * 2013-07-31 2021-05-28 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
US10354359B2 (en) 2013-08-21 2019-07-16 Interdigital Ce Patent Holdings Video display with pan function controlled by viewing direction
US9483228B2 (en) 2013-08-26 2016-11-01 Dolby Laboratories Licensing Corporation Live engine
US9304988B2 (en) * 2013-08-28 2016-04-05 Landr Audio Inc. System and method for performing automatic audio production using semantic data
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
CN109903776B (zh) 2013-09-12 2024-03-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US8751832B2 (en) * 2013-09-27 2014-06-10 James A Cashin Secure system and method for audio processing
US9067135B2 (en) 2013-10-07 2015-06-30 Voyetra Turtle Beach, Inc. Method and system for dynamic control of game audio based on audio analysis
US9716958B2 (en) * 2013-10-09 2017-07-25 Voyetra Turtle Beach, Inc. Method and system for surround sound processing in a headset
US10063982B2 (en) 2013-10-09 2018-08-28 Voyetra Turtle Beach, Inc. Method and system for a game headset with audio alerts based on audio track analysis
US9338541B2 (en) 2013-10-09 2016-05-10 Voyetra Turtle Beach, Inc. Method and system for in-game visualization based on audio analysis
US8979658B1 (en) 2013-10-10 2015-03-17 Voyetra Turtle Beach, Inc. Dynamic adjustment of game controller sensitivity based on audio analysis
JP6288100B2 (ja) * 2013-10-17 2018-03-07 株式会社ソシオネクスト オーディオエンコード装置及びオーディオデコード装置
KR102231755B1 (ko) * 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP3063955B1 (en) * 2013-10-31 2019-10-16 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
US9888333B2 (en) * 2013-11-11 2018-02-06 Google Technology Holdings LLC Three-dimensional audio rendering techniques
WO2015073454A2 (en) * 2013-11-14 2015-05-21 Dolby Laboratories Licensing Corporation Screen-relative rendering of audio and encoding and decoding of audio for such rendering
PL3074969T3 (pl) 2013-11-27 2019-05-31 Dts Inc Matrycowe miksowanie oparte na multiplecie dla wielokanałowego audio o dużej liczbie kanałów
WO2015080967A1 (en) 2013-11-28 2015-06-04 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
US9704491B2 (en) 2014-02-11 2017-07-11 Disney Enterprises, Inc. Storytelling environment: distributed immersive audio soundscape
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
MX364331B (es) * 2014-03-18 2019-04-23 Koninklijke Philips Nv Corrientes de datos de artículos de contenido audiovisual.
US10127914B2 (en) * 2014-03-21 2018-11-13 Dolby Laboratories Licensing Corporation Method for compressing a higher order ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
TWI662543B (zh) 2014-03-24 2019-06-11 瑞典商杜比國際公司 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體
JP6313641B2 (ja) * 2014-03-25 2018-04-18 日本放送協会 チャンネル数変換装置
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2925024A1 (en) 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
BR112016023716B1 (pt) 2014-04-11 2023-04-18 Samsung Electronics Co., Ltd Método de renderização de um sinal de áudio
US10068577B2 (en) 2014-04-25 2018-09-04 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
HK1195445A2 (en) * 2014-05-08 2014-11-07 黃偉明 Endpoint mixing system and reproduction method of endpoint mixed sounds
EP3146730B1 (en) * 2014-05-21 2019-10-16 Dolby International AB Configuring playback of audio via a home audio playback system
SG11201609855WA (en) * 2014-05-30 2016-12-29 Sony Corp Information processing apparatus and information processing method
WO2015184307A1 (en) * 2014-05-30 2015-12-03 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
KR20170017873A (ko) * 2014-06-06 2017-02-15 소니 주식회사 오디오 신호 처리 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
US10139907B2 (en) 2014-06-16 2018-11-27 Immersion Corporation Systems and methods for foley-style haptic content creation
US20180165358A1 (en) * 2014-06-30 2018-06-14 Sony Corporation Information processing apparatus and information processing method
MX367005B (es) 2014-07-18 2019-08-02 Sony Corp Dispositivo de transmision, metodo de transmision, dispositivo de recepcion, y metodo de recepcion.
EP3175446B1 (en) * 2014-07-31 2019-06-19 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN106797525B (zh) 2014-08-13 2019-05-28 三星电子株式会社 用于生成和回放音频信号的方法和设备
CN105657633A (zh) * 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9782672B2 (en) * 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
CN106688244A (zh) * 2014-09-24 2017-05-17 杜比实验室特许公司 头顶扬声器系统
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
JPWO2016052191A1 (ja) 2014-09-30 2017-07-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US20160094914A1 (en) * 2014-09-30 2016-03-31 Alcatel-Lucent Usa Inc. Systems and methods for localizing audio streams via acoustic large scale speaker arrays
ES2709117T3 (es) * 2014-10-01 2019-04-15 Dolby Int Ab Codificador y decodificador de audio
KR102226817B1 (ko) * 2014-10-01 2021-03-11 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
JP6728146B2 (ja) * 2014-10-02 2020-07-22 ドルビー・インターナショナル・アーベー ダイアログ向上のためのデコード方法およびデコーダ
US10089991B2 (en) * 2014-10-03 2018-10-02 Dolby International Ab Smart access to personalized audio
JP6812517B2 (ja) * 2014-10-03 2021-01-13 ドルビー・インターナショナル・アーベー パーソナル化されたオーディオへのスマート・アクセス
ES2709661T3 (es) 2014-10-31 2019-04-17 Dolby Int Ab Codificación y decodificación paramétrica de señales de audio multicanal
EP3219115A1 (en) * 2014-11-11 2017-09-20 Google, Inc. 3d immersive spatial audio systems and methods
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
CN112802496A (zh) 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
US10057705B2 (en) * 2015-01-13 2018-08-21 Harman International Industries, Incorporated System and method for transitioning between audio system modes
JP6550756B2 (ja) * 2015-01-20 2019-07-31 ヤマハ株式会社 オーディオ信号処理装置
US10321256B2 (en) 2015-02-03 2019-06-11 Dolby Laboratories Licensing Corporation Adaptive audio construction
EP3780589A1 (en) 2015-02-03 2021-02-17 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
US10057707B2 (en) 2015-02-03 2018-08-21 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US9933991B2 (en) * 2015-03-10 2018-04-03 Harman International Industries, Limited Remote controlled digital audio mixing system
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016148552A2 (ko) * 2015-03-19 2016-09-22 (주)소닉티어랩 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법
WO2016163329A1 (ja) * 2015-04-08 2016-10-13 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3286929B1 (en) * 2015-04-20 2019-07-31 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
WO2016172254A1 (en) 2015-04-21 2016-10-27 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
US20160315722A1 (en) * 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
JPWO2016171002A1 (ja) 2015-04-24 2018-02-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3295687B1 (en) 2015-05-14 2019-03-13 Dolby Laboratories Licensing Corporation Generation and playback of near-field audio content
KR102357293B1 (ko) * 2015-05-26 2022-01-28 삼성전자주식회사 입체 음향 재생 방법 및 장치
US9985676B2 (en) * 2015-06-05 2018-05-29 Braven, Lc Multi-channel mixing console
BR112017026915B1 (pt) 2015-06-17 2023-09-26 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Processador e codificador de áudio e método para processar e gerar sinal de áudio
TWI607655B (zh) 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10334387B2 (en) 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
GB2540225A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Distributed audio capture and mixing control
CN105187625B (zh) * 2015-07-13 2018-11-16 努比亚技术有限公司 一种电子设备及音频处理方法
GB2529310B (en) * 2015-07-16 2016-11-30 Powerchord Group Ltd A method of augmenting an audio content
GB2540407B (en) * 2015-07-16 2020-05-20 Powerchord Group Ltd Personal audio mixer
GB2540404B (en) * 2015-07-16 2019-04-10 Powerchord Group Ltd Synchronising an audio signal
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
CN105070304B (zh) 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
US10425764B2 (en) 2015-08-14 2019-09-24 Dts, Inc. Bass management for object-based audio
KR102423753B1 (ko) 2015-08-20 2022-07-21 삼성전자주식회사 스피커 위치 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
US9832590B2 (en) * 2015-09-12 2017-11-28 Dolby Laboratories Licensing Corporation Audio program playback calibration based on content creation environment
CN108292142B (zh) * 2015-09-28 2021-07-06 雷蛇(亚太)私人有限公司 计算机、控制计算机的方法及计算机可读介质
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
US9877137B2 (en) * 2015-10-06 2018-01-23 Disney Enterprises, Inc. Systems and methods for playing a venue-specific object-based audio
DE112016004292B4 (de) 2015-10-21 2019-03-07 Fujifilm Corporation Video-Audio-System
US9807535B2 (en) * 2015-10-30 2017-10-31 International Business Machines Corporation Three dimensional audio speaker array
WO2017087564A1 (en) 2015-11-20 2017-05-26 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
CN105979349A (zh) * 2015-12-03 2016-09-28 乐视致新电子科技(天津)有限公司 一种音频数据处理的方法和装置
WO2017106368A1 (en) 2015-12-18 2017-06-22 Dolby Laboratories Licensing Corporation Dual-orientation speaker for rendering immersive audio content
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
WO2017130210A1 (en) * 2016-01-27 2017-08-03 Indian Institute Of Technology Bombay Method and system for rendering audio streams
US10778160B2 (en) 2016-01-29 2020-09-15 Dolby Laboratories Licensing Corporation Class-D dynamic closed loop feedback amplifier
US11290819B2 (en) 2016-01-29 2022-03-29 Dolby Laboratories Licensing Corporation Distributed amplification and control system for immersive audio multi-channel amplifier
EP3409029A1 (en) 2016-01-29 2018-12-05 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
CN105656915B (zh) * 2016-01-29 2019-01-18 腾讯科技(深圳)有限公司 即时通话方法、装置和系统
EP3408936B1 (en) 2016-01-29 2019-12-04 Dolby Laboratories Licensing Corporation Multi-channel amplifier with continuous class-d modulator and embedded pld and resonant frequency detector
US9924291B2 (en) * 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US10573324B2 (en) * 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
CN105898669B (zh) * 2016-03-18 2017-10-20 南京青衿信息科技有限公司 一种声音对象的编码方法
WO2017165837A1 (en) 2016-03-24 2017-09-28 Dolby Laboratories Licensing Corporation Near-field rendering of immersive audio content in portable computers and devices
US10325610B2 (en) * 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
GB2550877A (en) * 2016-05-26 2017-12-06 Univ Surrey Object-based audio rendering
EP3472832A4 (en) 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
US10951985B1 (en) * 2016-07-01 2021-03-16 Gebre Waddell Method and system for audio critical listening and evaluation
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
JP7404067B2 (ja) 2016-07-22 2023-12-25 ドルビー ラボラトリーズ ライセンシング コーポレイション ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
CN106375778B (zh) * 2016-08-12 2020-04-17 南京青衿信息科技有限公司 一种符合数字电影规范的三维音频节目码流传输的方法
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
WO2018055860A1 (ja) * 2016-09-20 2018-03-29 ソニー株式会社 情報処理装置と情報処理方法およびプログラム
GB2554447A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
CN109565631B (zh) * 2016-09-28 2020-12-18 雅马哈株式会社 混音器、混音器的控制方法以及程序
EP3519846B1 (en) * 2016-09-29 2023-03-22 Dolby Laboratories Licensing Corporation Automatic discovery and localization of speaker locations in surround sound systems
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10419866B2 (en) 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10516914B2 (en) * 2016-10-19 2019-12-24 Centurylink Intellectual Property Llc Method and system for implementing automatic audio optimization for streaming services
EP3470976A1 (en) 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
CN109983786B (zh) 2016-11-25 2022-03-01 索尼公司 再现方法、装置及介质、信息处理方法及装置
JP6993774B2 (ja) * 2016-12-07 2022-01-14 シャープ株式会社 音声出力制御装置
EP3569000B1 (en) 2017-01-13 2023-03-29 Dolby Laboratories Licensing Corporation Dynamic equalization for cross-talk cancellation
WO2018138353A1 (en) * 2017-01-27 2018-08-02 Auro Technologies Nv Processing method and system for panning audio objects
DE102017102234A1 (de) * 2017-02-06 2018-08-09 Visteon Global Technologies, Inc. Verfahren und Vorrichtung zur räumlichen Darstellung virtueller Geräuschquellen in einem Fahrzeug
WO2018150774A1 (ja) * 2017-02-17 2018-08-23 シャープ株式会社 音声信号処理装置及び音声信号処理システム
US10999678B2 (en) * 2017-03-24 2021-05-04 Sharp Kabushiki Kaisha Audio signal processing device and audio signal processing system
WO2018190151A1 (ja) * 2017-04-13 2018-10-18 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US9843883B1 (en) * 2017-05-12 2017-12-12 QoSound, Inc. Source independent sound field rotation for virtual and augmented reality applications
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device
WO2018231185A1 (ru) * 2017-06-16 2018-12-20 Василий Васильевич ДУМА Способ синхронизации звуковых сигналов
US10028069B1 (en) 2017-06-22 2018-07-17 Sonos, Inc. Immersive audio in a media playback system
US10516962B2 (en) 2017-07-06 2019-12-24 Huddly As Multi-channel binaural recording and dynamic playback
CN110998724B (zh) 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
WO2019067620A1 (en) 2017-09-29 2019-04-04 Zermatt Technologies Llc SPEECH REDUCTION AUDIO MIXING
WO2019067469A1 (en) * 2017-09-29 2019-04-04 Zermatt Technologies Llc FILE FORMAT FOR SPACE
US11595056B2 (en) 2017-10-05 2023-02-28 Sony Corporation Encoding device and method, decoding device and method, and program
FR3072840B1 (fr) * 2017-10-23 2021-06-04 L Acoustics Arrangement spatial de dispositifs de diffusion sonore
WO2019094027A1 (en) 2017-11-10 2019-05-16 Hewlett-Packard Development Company, L.P. Conferencing environment monitoring
US10440497B2 (en) * 2017-11-17 2019-10-08 Intel Corporation Multi-modal dereverbaration in far-field audio systems
US10511909B2 (en) * 2017-11-29 2019-12-17 Boomcloud 360, Inc. Crosstalk cancellation for opposite-facing transaural loudspeaker systems
CN111434126B (zh) 2017-12-12 2022-04-26 索尼公司 信号处理装置和方法以及程序
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
PL3724876T3 (pl) * 2018-02-01 2022-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Enkoder sceny audio, dekoder sceny audio i powiązane sposoby wykorzystujące analizę przestrzenną hybrydowego enkodera/dekodera
KR102482960B1 (ko) 2018-02-07 2022-12-29 삼성전자주식회사 듀얼 스피커를 이용한 오디오 데이터 재생 방법 및 그의 전자 장치
DE102018206025A1 (de) * 2018-02-19 2019-08-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren für objektbasiertes, räumliches Audio-Mastering
US10514882B2 (en) 2018-02-21 2019-12-24 Microsoft Technology Licensing, Llc Digital audio processing system for adjoining digital audio stems based on computed audio intensity/characteristics
WO2019199359A1 (en) 2018-04-08 2019-10-17 Dts, Inc. Ambisonic depth extraction
US11540079B2 (en) * 2018-04-11 2022-12-27 Dolby International Ab Methods, apparatus and systems for a pre-rendered signal for audio rendering
EP3782152A2 (en) * 2018-04-16 2021-02-24 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
US10672405B2 (en) * 2018-05-07 2020-06-02 Google Llc Objective quality metrics for ambisonic spatial audio
US10630870B2 (en) * 2018-06-20 2020-04-21 Gdc Technology (Shenzhen) Limited System and method for augmented reality movie screenings
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
MX2020009578A (es) 2018-07-02 2020-10-05 Dolby Laboratories Licensing Corp Métodos y dispositivos para generar o decodificar un flujo de bits que comprende señales de audio inmersivo.
US20200007988A1 (en) * 2018-07-02 2020-01-02 Microchip Technology Incorporated Wireless signal source based audio output and related systems, methods and devices
CN110675889A (zh) 2018-07-03 2020-01-10 阿里巴巴集团控股有限公司 音频信号处理方法、客户端和电子设备
US10445056B1 (en) * 2018-07-03 2019-10-15 Disney Enterprises, Inc. System for deliverables versioning in audio mastering
US10455078B1 (en) * 2018-07-11 2019-10-22 International Business Machines Corporation Enhancing privacy in mobile phone calls by caller controlled audio delivering modes
GB2575510A (en) 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial augmentation
US11159327B2 (en) * 2018-08-06 2021-10-26 Tyson York Winarski Blockchain augmentation of a material exchange format MXF file
WO2020047298A1 (en) 2018-08-30 2020-03-05 Dolby International Ab Method and apparatus for controlling enhancement of low-bitrate coded audio
US10404467B1 (en) * 2018-09-09 2019-09-03 Tyson York Winarski Blockchain digest augmention of media files including group-of-pictures video streams for MXF files
US20200081681A1 (en) * 2018-09-10 2020-03-12 Spotify Ab Mulitple master music playback
BR112021005241A2 (pt) * 2018-09-28 2021-06-15 Sony Corporation dispositivo, método e programa de processamento de informações
US10932344B2 (en) 2018-10-09 2021-02-23 Rovi Guides, Inc. Systems and methods for emulating an environment created by the outputs of a plurality of devices
EP3868129B1 (en) 2018-10-16 2023-10-11 Dolby Laboratories Licensing Corporation Methods and devices for bass management
WO2020086357A1 (en) 2018-10-24 2020-04-30 Otto Engineering, Inc. Directional awareness audio communications system
US20220022000A1 (en) * 2018-11-13 2022-01-20 Dolby Laboratories Licensing Corporation Audio processing in immersive audio services
CN109451417B (zh) * 2018-11-29 2024-03-15 广州艾美网络科技有限公司 多声道音频处理方法及系统
EP3900373A4 (en) * 2018-12-18 2022-08-10 Intel Corporation DISPLAY-BASED AUDIO DIVISION IN MULTIMEDIA ENVIRONMENTS
US11503422B2 (en) 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
EP3949438A4 (en) * 2019-04-02 2023-03-01 Syng, Inc. SYSTEMS AND METHODS FOR SPATIAL AUDIO REPRODUCTION
JP7419666B2 (ja) 2019-04-03 2024-01-23 ヤマハ株式会社 音信号処理装置および音信号処理方法
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
CN112233647A (zh) * 2019-06-26 2021-01-15 索尼公司 信息处理设备和方法以及计算机可读存储介质
US11841899B2 (en) 2019-06-28 2023-12-12 Apple Inc. Spatial audio file format for storing capture metadata
CN112153530B (zh) * 2019-06-28 2022-05-27 苹果公司 用于存储捕获元数据的空间音频文件格式
WO2021001358A1 (en) 2019-07-02 2021-01-07 Dolby International Ab Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US10972852B2 (en) 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
WO2021007246A1 (en) 2019-07-09 2021-01-14 Dolby Laboratories Licensing Corporation Presentation independent mastering of audio content
US20220262374A1 (en) * 2019-07-19 2022-08-18 Sony Group Corporation Signal processing device and signal processing method, and program
FR3100680B1 (fr) * 2019-09-09 2022-11-04 L Acoustics Dispositif de diffusion sonore a directivite large bande controlee
JP2021048500A (ja) * 2019-09-19 2021-03-25 ソニー株式会社 信号処理装置、信号処理方法および信号処理システム
TWI735968B (zh) * 2019-10-09 2021-08-11 名世電子企業股份有限公司 音場型自然環境音效系統
JP7373724B2 (ja) * 2019-10-28 2023-11-06 パナソニックIpマネジメント株式会社 環境制御システム
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
US11096006B1 (en) * 2019-11-04 2021-08-17 Facebook Technologies, Llc Dynamic speech directivity reproduction
CN110782865B (zh) * 2019-11-06 2023-08-18 上海音乐学院 一种三维声音创作交互式系统
US11533560B2 (en) 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
WO2021098957A1 (en) * 2019-11-20 2021-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object renderer, methods for determining loudspeaker gains and computer program using panned object loudspeaker gains and spread object loudspeaker gains
WO2021099363A2 (en) * 2019-11-20 2021-05-27 Dolby International Ab Methods and devices for personalizing audio content
RU2721180C1 (ru) * 2019-12-02 2020-05-18 Самсунг Электроникс Ко., Лтд. Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
US20230024873A1 (en) 2019-12-02 2023-01-26 Dolby Laboratories Licensing Corporation Systems, methods and apparatus for conversion from channel-based audio to object-based audio
KR20210072388A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
KR20220108076A (ko) * 2019-12-09 2022-08-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정
JP7443870B2 (ja) 2020-03-24 2024-03-06 ヤマハ株式会社 音信号出力方法および音信号出力装置
US11900412B2 (en) * 2020-03-25 2024-02-13 Applied Minds, Llc Audience participation application, system, and method of use
CN111586553B (zh) * 2020-05-27 2022-06-03 京东方科技集团股份有限公司 显示装置及其工作方法
US11275629B2 (en) * 2020-06-25 2022-03-15 Microsoft Technology Licensing, Llc Mixed reality complementary systems
WO2022010454A1 (en) * 2020-07-06 2022-01-13 Hewlett-Packard Development Company, L.P. Binaural down-mixing of audio signals
BR112023001616A2 (pt) * 2020-07-30 2023-02-23 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificar um sinal de áudio ou para decodificar uma cena de áudio codificada
CN112398455B (zh) * 2020-10-21 2022-09-27 头领科技(昆山)有限公司 一种自适应功率放大器芯片及其自适应控制方法
CN112312298A (zh) 2020-11-19 2021-02-02 北京小米松果电子有限公司 音频播放方法及装置、电子设备和存储介质
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102500694B1 (ko) * 2020-11-24 2023-02-16 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN114915874B (zh) * 2021-02-10 2023-07-25 北京全景声信息科技有限公司 音频处理方法、装置、设备及介质
RU2759666C1 (ru) * 2021-02-19 2021-11-16 Общество с ограниченной ответственностью «ЯЛОС СТРИМ» Система воспроизведения аудио-видеоданных
KR20220146165A (ko) * 2021-04-23 2022-11-01 삼성전자주식회사 오디오 신호 처리를 위한 전자 장치 및 그 동작 방법
US11581862B2 (en) 2021-04-30 2023-02-14 That Corporation Passive sub-audible room path learning with noise modeling
WO2022245076A1 (ko) * 2021-05-21 2022-11-24 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법
US20240163529A1 (en) * 2021-05-28 2024-05-16 Dolby Laboratories Licensing Corporation Dolby atmos master compressor/limiter
CN113905321A (zh) * 2021-09-01 2022-01-07 赛因芯微(北京)电子科技有限公司 基于对象音频通道元数据和生成方法、设备及存储介质
CN113905322A (zh) * 2021-09-01 2022-01-07 赛因芯微(北京)电子科技有限公司 基于双耳音频通道元数据和生成方法、设备及存储介质
CN113938811A (zh) * 2021-09-01 2022-01-14 赛因芯微(北京)电子科技有限公司 基于音床音频通道元数据和生成方法、设备及存储介质
CN113923584A (zh) * 2021-09-01 2022-01-11 赛因芯微(北京)电子科技有限公司 基于矩阵音频通道元数据和生成方法、设备及存储介质
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质
CN114143695A (zh) * 2021-10-15 2022-03-04 赛因芯微(北京)电子科技有限公司 一种音频流元数据和生成方法、电子设备及存储介质
CN114363790A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频块格式元数据生成方法、装置、设备及介质
CN114363792A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 传输音轨格式串行元数据生成方法、装置、设备及介质
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质
US11902771B2 (en) * 2021-12-27 2024-02-13 Spatialx Inc. Audio space simulation in a localized audio environment
CN114510212B (zh) * 2021-12-31 2023-08-08 赛因芯微(北京)电子科技有限公司 一种基于串行数字音频接口的数据传输方法、装置及设备
CN114509043B (zh) * 2022-02-15 2024-04-30 深圳须弥云图空间科技有限公司 空间对象编码方法、装置、设备及介质
CN117581566A (zh) * 2022-05-05 2024-02-20 北京小米移动软件有限公司 音频处理方法、装置及存储介质
KR102504081B1 (ko) * 2022-08-18 2023-02-28 주식회사 킨트 사운드 파일 마스터링 시스템
WO2024074282A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for encoding and decoding of audio bitstreams
WO2024076828A1 (en) * 2022-10-05 2024-04-11 Dolby Laboratories Licensing Corporation Method, apparatus, and medium for encoding and decoding of audio bitstreams with parametric flexible rendering configuration data
WO2024074284A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams
WO2024074283A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for decoding of audio signals with skippable blocks
KR102608935B1 (ko) * 2023-04-06 2023-12-04 뉴튠(주) 사용자 정보에 기초한 실시간 오디오 믹싱 서비스 제공 방법 및 장치
CN116594586B (zh) * 2023-07-18 2023-09-26 苏州清听声学科技有限公司 一种车载自适应调节的音频播放系统及方法
CN117809697A (zh) * 2024-01-23 2024-04-02 深圳蔓延科技有限公司 依据音频生成可视动画的方法以及电子装置

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155510A (en) 1990-11-29 1992-10-13 Digital Theater Systems Corporation Digital sound system for motion pictures with analog sound track emulation
RU1332U1 (ru) 1993-11-25 1995-12-16 Магаданское государственное геологическое предприятие "Новая техника" Гидромонитор
US5602923A (en) 1994-03-07 1997-02-11 Sony Corporation Theater sound system with upper surround channels
JPH0951600A (ja) * 1995-08-03 1997-02-18 Fujitsu Ten Ltd 効果音再生システム
US5642423A (en) 1995-11-22 1997-06-24 Sony Corporation Digital surround sound processor
US5970152A (en) * 1996-04-30 1999-10-19 Srs Labs, Inc. Audio enhancement system for use in a surround sound environment
US6229899B1 (en) 1996-07-17 2001-05-08 American Technology Corporation Method and device for developing a virtual speaker distant from the sound source
US6164018A (en) 1997-12-08 2000-12-26 Shopro, Inc. Cinematic theater and theater multiplex
US6624873B1 (en) 1998-05-05 2003-09-23 Dolby Laboratories Licensing Corporation Matrix-encoded surround-sound channels in a discrete digital sound format
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
US6771323B1 (en) 1999-11-15 2004-08-03 Thx Ltd. Audio visual display adjustment using captured content characteristics
EP1134724B1 (en) * 2000-03-17 2008-07-23 Sony France S.A. Real time audio spatialisation system with high level control
WO2001082651A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
US7212872B1 (en) 2000-05-10 2007-05-01 Dts, Inc. Discrete multichannel audio with a backward compatible mix
US6970822B2 (en) 2001-03-07 2005-11-29 Microsoft Corporation Accessing audio processing components in an audio generation system
KR20030015806A (ko) 2001-08-17 2003-02-25 최해용 극장용 영상,음향 광학계(劇場用 映像,音響 光學係)
BR0304231A (pt) * 2002-04-10 2004-07-27 Koninkl Philips Electronics Nv Métodos para codificação de um sinal de canais múltiplos, método e disposição para decodificação de informação de sinal de canais múltiplos, sinal de dados incluindo informação de sinal de canais múltiplos, meio legìvel por computador, e, dispositivo para comunicação de um sinal de canais múltiplos
JP2003348700A (ja) * 2002-05-28 2003-12-05 Victor Co Of Japan Ltd 臨場感信号の生成方法、及び臨場感信号生成装置
US20030223603A1 (en) 2002-05-28 2003-12-04 Beckman Kenneth Oren Sound space replication
DE10254404B4 (de) * 2002-11-21 2004-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiowiedergabesystem und Verfahren zum Wiedergeben eines Audiosignals
GB0301093D0 (en) * 2003-01-17 2003-02-19 1 Ltd Set-up method for array-type sound systems
GB0304126D0 (en) * 2003-02-24 2003-03-26 1 Ltd Sound beam loudspeaker system
FR2853802B1 (fr) 2003-04-11 2005-06-24 Pierre Denis Rene Vincent Installation pour la projection d'oeuvres cinematographiques ou numeriques sonores
DE602004005234T2 (de) 2003-07-07 2007-11-08 Koninklijke Philips Electronics N.V. System und verfahren zur signalverarbeitung
US6972828B2 (en) 2003-12-18 2005-12-06 Eastman Kodak Company Method and system for preserving the creative intent within a motion picture production chain
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7106411B2 (en) 2004-05-05 2006-09-12 Imax Corporation Conversion of cinema theatre to a super cinema theatre
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
DE102005008343A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
DE102005008342A1 (de) 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Speichern von Audiodateien
JP2006304165A (ja) * 2005-04-25 2006-11-02 Yamaha Corp スピーカアレイシステム
DE102005033238A1 (de) * 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Mehrzahl von Lautsprechern mittels eines DSP
KR100897971B1 (ko) * 2005-07-29 2009-05-18 하르만 인터내셔날 인더스트리즈, 인코포레이티드 오디오 튜닝 시스템
KR100733965B1 (ko) 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
DE602006018703D1 (de) * 2006-04-05 2011-01-20 Harman Becker Automotive Sys Verfahren zum automatischen Entzerren eines Beschallungssystems
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
EP1879293B1 (en) 2006-07-10 2019-02-20 Harman Becker Automotive Systems GmbH Partitioned fast convolution in the time and frequency domain
JP5232789B2 (ja) 2006-09-29 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号をエンコーディング及びデコーディングする方法並びにその装置
KR101120909B1 (ko) * 2006-10-16 2012-02-27 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체
CN101001485A (zh) * 2006-10-23 2007-07-18 中国传媒大学 一种有限声源多通道声场系统及声场模拟方法
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
US7788395B2 (en) 2007-02-14 2010-08-31 Microsoft Corporation Adaptive media playback
EP2137726B1 (en) 2007-03-09 2011-09-28 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101422745B1 (ko) 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
ES2593822T3 (es) 2007-06-08 2016-12-13 Lg Electronics Inc. Método y aparato para procesar una señal de audio
ES2377719T3 (es) 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
KR20100116223A (ko) * 2008-03-20 2010-10-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음향 디스플레이 장치 및 방법
JP5174527B2 (ja) 2008-05-14 2013-04-03 日本放送協会 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US7996422B2 (en) * 2008-07-22 2011-08-09 At&T Intellectual Property L.L.P. System and method for adaptive media playback based on destination
US7796190B2 (en) 2008-08-15 2010-09-14 At&T Labs, Inc. System and method for adaptive content rendition
US8793749B2 (en) 2008-08-25 2014-07-29 Broadcom Corporation Source frame adaptation and matching optimally to suit a recipient video device
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5629429B2 (ja) 2008-11-21 2014-11-19 パナソニック株式会社 オーディオ再生装置及びオーディオ再生方法
US8351612B2 (en) * 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
US8786682B2 (en) * 2009-03-05 2014-07-22 Primesense Ltd. Reference image techniques for three-dimensional sensing
WO2010148227A1 (en) 2009-06-19 2010-12-23 Dolby Laboratories Licensing Corporation Upgradable engine framework for audio and video
US8136142B2 (en) 2009-07-02 2012-03-13 Ericsson Television, Inc. Centralized content management system for managing distribution of packages to video service providers
ES2793958T3 (es) 2009-08-14 2020-11-17 Dts Llc Sistema para trasmitir adaptativamente objetos de audio
CA2715362A1 (en) * 2009-09-22 2011-03-22 Thwapr, Inc. Interoperable mobile media sharing
US20110088076A1 (en) * 2009-10-08 2011-04-14 Futurewei Technologies, Inc. System and Method for Media Adaptation
WO2011045813A2 (en) 2009-10-15 2011-04-21 Tony Joy A method and product to transparently deliver audio through fusion of fixed loudspeakers and headphones to deliver the sweet spot experience
RU2607267C2 (ru) * 2009-11-20 2017-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерные программы и битовый поток, представляющий многоканальный звуковой сигнал посредством использования параметра линейной комбинации
JP2013513129A (ja) 2009-12-02 2013-04-18 トムソン ライセンシング ホーム・シアターのコンテンツ較正の最適化
RU2617553C2 (ru) * 2011-07-01 2017-04-25 Долби Лабораторис Лайсэнзин Корпорейшн Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
US20130163794A1 (en) * 2011-12-22 2013-06-27 Motorola Mobility, Inc. Dynamic control of audio on a mobile device with respect to orientation of the mobile device
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix

Also Published As

Publication number Publication date
KR20200137034A (ko) 2020-12-08
JP6523585B1 (ja) 2019-06-05
US9467791B2 (en) 2016-10-11
KR20140017682A (ko) 2014-02-11
TWI543642B (zh) 2016-07-21
AU2020226984A1 (en) 2020-09-17
CA2973703C (en) 2022-06-21
IL265741A (en) 2019-06-30
JP2023164976A (ja) 2023-11-14
KR20200058593A (ko) 2020-05-27
US20140133683A1 (en) 2014-05-15
KR20220081385A (ko) 2022-06-15
TWI603632B (zh) 2017-10-21
US20180324543A1 (en) 2018-11-08
AU2018203734B2 (en) 2019-03-14
MX2013014684A (es) 2014-03-27
SG10201604679UA (en) 2016-07-28
CA2973703A1 (en) 2013-01-10
JP2014522155A (ja) 2014-08-28
KR101845226B1 (ko) 2018-05-18
IL302167B1 (en) 2024-07-01
WO2013006338A2 (en) 2013-01-10
AU2016202227A1 (en) 2016-05-05
AU2023200502A1 (en) 2023-03-02
IL295733A (en) 2022-10-01
IL291043B (en) 2022-11-01
EP2727383A2 (en) 2014-05-07
KR101946795B1 (ko) 2019-02-13
JP6882618B2 (ja) 2021-06-02
US10057708B2 (en) 2018-08-21
JP2021073496A (ja) 2021-05-13
US20180027352A1 (en) 2018-01-25
JP5912179B2 (ja) 2016-04-27
US20190306652A1 (en) 2019-10-03
TW201642673A (zh) 2016-12-01
RU2741738C1 (ru) 2021-01-28
AU2019204012B2 (en) 2020-06-11
KR102608968B1 (ko) 2023-12-05
KR102003191B1 (ko) 2019-07-24
CA2837893A1 (en) 2013-01-10
EP2727383B1 (en) 2021-04-28
KR20150013913A (ko) 2015-02-05
HK1219604A1 (zh) 2017-04-07
UA124570C2 (uk) 2021-10-13
CN105792086B (zh) 2019-02-15
EP4404594A2 (en) 2024-07-24
AU2020226984B2 (en) 2021-08-19
US9942688B2 (en) 2018-04-10
IL245574A0 (en) 2016-06-30
AU2012279357B2 (en) 2016-01-14
BR112013033386A2 (pt) 2017-01-24
JP2016165117A (ja) 2016-09-08
WO2013006338A3 (en) 2013-10-10
TW202139720A (zh) 2021-10-16
AR086775A1 (es) 2014-01-22
RU2617553C2 (ru) 2017-04-25
AU2021258043A1 (en) 2021-11-25
CA3157717A1 (en) 2013-01-10
IL284585B (en) 2022-04-01
AU2018203734A1 (en) 2018-06-21
US10477339B2 (en) 2019-11-12
KR102185941B1 (ko) 2020-12-03
JP6759442B2 (ja) 2020-09-23
AU2019204012A1 (en) 2019-07-11
US11412342B2 (en) 2022-08-09
IL277736B (en) 2021-07-29
TWI651005B (zh) 2019-02-11
KR102115723B1 (ko) 2020-05-28
KR20190014601A (ko) 2019-02-12
JP7009664B2 (ja) 2022-01-25
IL313393A (en) 2024-08-01
RU2731025C2 (ru) 2020-08-28
AU2021258043B2 (en) 2022-11-03
KR102406776B1 (ko) 2022-06-10
TWI722342B (zh) 2021-03-21
US9179236B2 (en) 2015-11-03
CN103650539A (zh) 2014-03-19
JP2020057014A (ja) 2020-04-09
US10165387B2 (en) 2018-12-25
RU2013158054A (ru) 2015-08-10
US20170215020A1 (en) 2017-07-27
HUE054452T2 (hu) 2021-09-28
JP2021005876A (ja) 2021-01-14
TW201811070A (zh) 2018-03-16
US20230045090A1 (en) 2023-02-09
US11962997B2 (en) 2024-04-16
TW202339510A (zh) 2023-10-01
US20210219091A1 (en) 2021-07-15
JP2022058569A (ja) 2022-04-12
US9800991B2 (en) 2017-10-24
TWI792203B (zh) 2023-02-11
BR122020001361B1 (pt) 2022-04-19
CN103650539B (zh) 2016-03-16
CN105792086A (zh) 2016-07-20
EP3893521A1 (en) 2021-10-13
US10904692B2 (en) 2021-01-26
US10327092B2 (en) 2019-06-18
JP2019095813A (ja) 2019-06-20
AU2016202227B2 (en) 2018-03-22
US20160381483A1 (en) 2016-12-29
IL277736A (en) 2020-11-30
IL230046A (en) 2016-06-30
US20180192230A1 (en) 2018-07-05
JP6821854B2 (ja) 2021-01-27
IL284585A (en) 2021-08-31
JP6174184B2 (ja) 2017-08-02
JP6486995B2 (ja) 2019-03-20
KR101685447B1 (ko) 2016-12-12
IL295733B2 (en) 2023-10-01
US20200145779A1 (en) 2020-05-07
JP2017215592A (ja) 2017-12-07
DK2727383T3 (da) 2021-05-25
BR112013033386B1 (pt) 2021-05-04
IL291043A (en) 2022-05-01
KR20180035937A (ko) 2018-04-06
RU2017112527A3 (es) 2020-06-26
JP6637208B2 (ja) 2020-01-29
TW201325269A (zh) 2013-06-16
MY165933A (en) 2018-05-18
RU2017112527A (ru) 2019-01-24
JP2021131562A (ja) 2021-09-09
US20160021476A1 (en) 2016-01-21
IL265741B (en) 2020-10-29
US9622009B2 (en) 2017-04-11
JP2019144583A (ja) 2019-08-29
TW201909658A (zh) 2019-03-01
PL2727383T3 (pl) 2021-08-02
JP7348320B2 (ja) 2023-09-20
CA2837893C (en) 2017-08-29
EP3893521B1 (en) 2024-06-19
IL295733B1 (en) 2023-06-01
US20190104376A1 (en) 2019-04-04
IL291043B2 (en) 2023-03-01
IL302167A (en) 2023-06-01
KR20190086785A (ko) 2019-07-23
KR20230170110A (ko) 2023-12-18

Similar Documents

Publication Publication Date Title
US11962997B2 (en) System and method for adaptive audio signal generation, coding and rendering
AU2012279357A1 (en) System and method for adaptive audio signal generation, coding and rendering