ES2913426T3 - Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales - Google Patents

Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales Download PDF

Info

Publication number
ES2913426T3
ES2913426T3 ES18161580T ES18161580T ES2913426T3 ES 2913426 T3 ES2913426 T3 ES 2913426T3 ES 18161580 T ES18161580 T ES 18161580T ES 18161580 T ES18161580 T ES 18161580T ES 2913426 T3 ES2913426 T3 ES 2913426T3
Authority
ES
Spain
Prior art keywords
virtual surface
virtual
speaker
nodes
plane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18161580T
Other languages
English (en)
Inventor
Mikko-Ville Ilari Laitinen
Juha Tapio Vilkamo
Tapani Pihlajakuja
Antti Johannes Eronen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Application granted granted Critical
Publication of ES2913426T3 publication Critical patent/ES2913426T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Mathematical Physics (AREA)

Abstract

Un aparato para la decodificación de señal de audio espacial asociado con una pluralidad de nodos de altavoz colocados dentro de un espacio tridimensional, en donde el aparato está configurado para: determinar una disposición de superficie virtual no solapante, en donde la disposición de superficie virtual comprende una pluralidad de superficies virtuales con esquinas posicionadas en al menos tres nodos de altavoz de la pluralidad de nodos de altavoz y lados que conectan pares de esquinas configurados para no intersecarse con al menos un plano virtual definido dentro del espacio tridimensional, en donde la disposición de superficie virtual no solapante está determinada por el aparato que está configurado para dividir los nodos de altavoz en partes, en donde al menos una parte comprende nodos de altavoz ubicados a un lado o en el plano virtual definido, y al menos una parte adicional comprende nodos de altavoz ubicados en el otro lado o en el plano virtual definido; determinar (503) bordes de superficie virtual para la al menos una parte y bordes de superficie virtual para la al menos una parte adicional; y combinar (505) los bordes de superficie virtual para la al menos una parte y los bordes de superficie virtual para la al menos una parte adicional para generar la pluralidad de superficies virtuales y, por lo tanto, determinar la disposición de superficie virtual no solapante; generar (507) ganancias para los nodos de altavoz basándose en la disposición de superficie virtual determinada; aplicar las ganancias a al menos una señal de audio, teniendo que posicionarse la al menos una señal de audio dentro del espacio tridimensional, en donde el aparato está caracterizado por estar configurado, cuando se dividen los nodos de altavoz en partes, para dividir los nodos de altavoz en una parte adicional que comprende nodos de altavoz ubicados en o cerca del plano virtual definido, en donde el aparato, cuando se determinan los bordes de superficie virtual para la al menos una parte, está configurado además para conectar virtualmente nodos de altavoz para la al menos una parte que comprende nodos de altavoz ubicados en o cerca del plano virtual definido.

Description

DESCRIPCIÓN
Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales
Campo
La presente solicitud se refiere a aparatos y a métodos para la reproducción de sonido espacial usando sistemas de altavoces de múltiples canales. Esto incluye, pero no exclusivamente, para sistemas en los que la configuración de altavoces de múltiples canales es una configuración de altavoces de múltiples canales virtuales.
Antecedentes
El procesamiento de audio espacial paramétrico es un campo de procesamiento de señales de audio donde el aspecto espacial del sonido se describe usando un conjunto de parámetros. Por ejemplo, en la captura de audio espacial paramétrica a partir de matrices de micrófonos, una elección típica y efectiva es estimar, a partir de las señales de matriz de micrófonos, un conjunto de parámetros tales como direcciones del sonido en bandas de frecuencia, y los parámetros de razón que expresan energías relativas de las partes direccionales y no direccionales del sonido captado en bandas de frecuencia. Se sabe que estos parámetros describen bien las propiedades espaciales perceptuales del sonido captado en la posición de la matriz de micrófonos. Estos parámetros pueden usarse en la síntesis del sonido espacial, por consiguiente, para auriculares de manera binaural, para altavoces o para otros formatos, tales como ambisónico.
Por tanto, las direcciones y las razones de energía directa con respecto a total en bandas de frecuencia son de este modo una parametrización que es particularmente eficaz para la captación de audio espacial.
También puede usarse un conjunto de parámetros que consiste en un parámetro de dirección en bandas de frecuencia y un parámetro de razón de energía en bandas de frecuencia (que indica la proporción de energía sonora que es direccional) como metadatos espaciales para un códec de audio. Por ejemplo, estos parámetros pueden estimarse a partir de señales de audio captadas en matriz de micrófonos y, por ejemplo, se puede generar una señal estéreo a partir de las señales de matriz de micrófonos que se transportan con los metadatos espaciales. La señal estéreo puede codificarse, por ejemplo, con un codificador AAC. Un decodificador puede decodificar las señales de audio para dar señales de PCM, y procesar el sonido en bandas de frecuencia (usando los metadatos espaciales) para obtener la salida espacial, por ejemplo, una salida binaural.
La reproducción de las señales de audio espaciales (reproducción de sonido espacial) requiere normalmente posicionar sonido en un espacio en 3D en direcciones arbitrarias. Estas direcciones pueden obtenerse automáticamente, p. ej., a partir de parámetros de escena de sonido, o pueden establecerse por el usuario. La vector base amplitude panning (panoramización de amplitud de base vectorial - VBAP) es un método común para posicionar señales de audio espaciales usando configuraciones de altavoces.
El VBAP se basa normalmente en
1) triangular automática o manualmente la configuración de altavoces,
2) seleccionar triángulo(s) apropiado(s) basándose en la dirección (de modo que para una dirección dada se seleccionan tres altavoces que forman un triángulo donde se encuentra la dirección), y
3) calcular ganancias basándose en la dirección para los tres altavoces que forman el triángulo particular.
En una implementación práctica, las ganancias de VBAP (para cada acimut y elevación) y los tripletes de altavoces (para cada acimut y elevación) pueden formularse previamente en una tabla de consulta almacenada en la memoria. Entonces, dicho sistema en tiempo real realiza la panoramización de amplitud hallando a partir de la memoria el triplete de altavoces apropiado para la dirección de panoramización deseada, y las ganancias para estos altavoces correspondientes a la dirección de panoramización deseada.
EP2892250 describe un aparato para generar una pluralidad de canales de audio para una primera configuración de altavoces que está caracterizado por un determinador de altavoz imaginario, un calculador de distribución de energía, un procesador y un renderizador. El determinador de altavoz imaginario está configurado para determinar una posición de un altavoz imaginario no contenido en la primera configuración de altavoces para obtener una segunda configuración de altavoces que contiene el altavoz imaginario. El calculador de distribución de energía está configurado para calcular una distribución de energía desde el altavoz imaginario hasta los otros altavoces en la segunda configuración de altavoces. El procesador está configurado para repetir la distribución de energía para obtener una información de mezcla descendente para una mezcla descendente desde la segunda configuración de altavoces hasta la primera configuración de altavoces. El renderizador está configurado para generar la pluralidad de canales de audio usando la información de mezcla descendente.
Resumen
Según un primer aspecto, se proporciona un aparato tal como se reivindica en la reivindicación 1.
Según un segundo aspecto, se proporciona un método según la reivindicación 12.
Un producto de programa informático almacenado en un medio puede hacer que un aparato realice el método tal como se describe en la presente memoria.
Un dispositivo electrónico puede comprender un aparato tal como se describe en la presente memoria.
Un conjunto de chips puede comprender un aparato tal como se describe en la presente memoria.
Las realizaciones de la presente solicitud tienen como objetivo abordar problemas asociados con el estado de la técnica.
Resumen de las figuras
Para una mejor comprensión de la presente solicitud, ahora se hará referencia a modo de ejemplo a los dibujos adjuntos, en los que:
la Figura 1 muestra esquemáticamente un ejemplo de panoramización de amplitud de base vectorial que comprende un triplete de altavoces y un triángulo activo;
la Figura 2 muestra esquemáticamente una triangulación de panoramización de amplitud de base vectorial;
las Figuras 3a y 3b muestran esquemáticamente una panoramización de fuente que usa dos triangulaciones diferentes; la Figura 4 muestra esquemáticamente una triangulación de panoramización de amplitud de base vectorial y una triangulación de panoramización de amplitud de base vectorial adicional producida usando métodos según algunas realizaciones;
la Figura 5a muestra esquemáticamente un generador de triangulación de panoramización de amplitud de base vectorial de ejemplo según algunas realizaciones;
la Figura 5b muestra un diagrama de flujo de un método de ejemplo para hacer funcionar el ejemplo de un generador de triangulación de panoramización de amplitud de base vectorial como se muestra en la Figura 5a según algunas realizaciones;
la Figura 5c muestra un diagrama de flujo de un método de ejemplo de generación de conectores como se implementa en la Figura 5b según algunas realizaciones;
la Figura 5d muestra esquemáticamente un ejemplo adicional de un generador de triangulación de panoramización de amplitud de base vectorial según algunas realizaciones;
la Figura 5e muestra un diagrama de flujo de un método para hacer funcionar el ejemplo adicional de un generador de triangulación de panoramización de amplitud de base vectorial como se muestra en la Figura 5d según algunas realizaciones;
la Figura 6a muestra esquemáticamente otro generador de triangulación de panoramización de amplitud de base vectorial de ejemplo según algunas realizaciones;
la Figura 6b muestra un diagrama de flujo de un método para hacer funcionar el otro generador de triangulación de panoramización de amplitud de base vectorial de ejemplo como se muestra en la Figura 6a según algunas realizaciones; la Figura 7 muestra esquemáticamente un aparato adecuado para emplear los métodos de generación de triangulación de panoramización de amplitud de base vectorial según algunas realizaciones;
la Figura 8a muestra un aparato para la determinación del plano basado en contenido para generar triangulación de panoramización de amplitud de base vectorial según algunas realizaciones;
la Figura 8b muestra un diagrama de flujo de un método de determinación de plano basado en contenido de ejemplo según algunas realizaciones;
la Figura 9 muestra esquemáticamente la adaptación del contenido como parte de la generación de triangulación de panoramización de amplitud de base vectorial según algunas realizaciones;
la Figura 10 muestra esquemáticamente aparato adicional adecuado para emplear los métodos de generación de triangulación de panoramización de amplitud de base vectorial con adaptación de contenido según algunas realizaciones; y
la Figura 11 muestra esquemáticamente un dispositivo de ejemplo adecuado para implementar el aparato mostrado.
Realizaciones de la solicitud
A continuación se describe en más detalle un aparato adecuado y mecanismos posibles para proporcionar adaptación de la vector base amplitude panning (panoramización de amplitud de base vectorial - VBAP).
Tal como se describe anteriormente, VBAP se basa en triangulación automática de la configuración de altavoces, seleccionar un triángulo activo apropiado basándose en la dirección (de modo que para una dirección dada se seleccionan tres altavoces que forman un triángulo donde se encuentra la dirección dada) y calcular ganancias para los tres altavoces que forman el triángulo particular (o generalmente el polígono particular). Las triángulos “ activos” pueden generalizarse como una disposición de superficie virtual que comprende superficies virtuales con esquinas situadas en ubicaciones de altavoz o nodo de altavoz. Además, aunque algunas realizaciones a continuación en la presente memoria describen la generación de superficies virtuales como superficies triangulares, se pueden emplear los mismos métodos y aparatos para cualquier superficie de polígono adecuada.
En otras palabras, se hace que algunas realizaciones, como se describen a continuación en la presente memoria, determinen una disposición no superpuesta de superficies de sonido, comprendiendo la disposición de superficies de sonido una pluralidad de superficies de sonido generadas por tener al menos tres nodos de altavoz de una pluralidad de nodos de altavoz, en donde cada uno de los al menos tres nodos de altavoz está posicionado en el espacio tridimensional para formar una esquina de una superficie de sonido donde dos lados cualesquiera de la superficie de sonido están conectados a una esquina de la superficie de sonido de tal manera que al menos un plano de sonido definido no se interseca con los dos lados cualesquiera de la superficie de sonido. Por lo tanto, puede entenderse que una superficie virtual, como se describe en los ejemplos a continuación en la presente memoria, es una superficie de sonido representada dentro del espacio en 3D definido por los nodos de altavoz.
En una implementación práctica, normalmente las ganancias de VBAP (para cada acimut y elevación) y los tripletes de altavoces (para cada acimut y elevación) se formulan previamente en una tabla de consulta almacenada en la memoria. Entonces, un sistema en tiempo real realiza la panoramización de amplitud hallando a partir de la memoria el triplete de altavoces apropiado para la dirección de panoramización deseada, y las ganancias para estos altavoces correspondientes a la dirección de panoramización deseada.
La primera etapa de VBAP es la división de la configuración de altavoces en 3D para dar triángulos. En la Figura 1 se muestra un triángulo “ activo” de ejemplo.
La Figura 1 muestra, por ejemplo, tres altavoces, canal 1101 ubicado en la dirección del vector unitario Ii, canal 2 102 ubicado en la dirección del vector unitario I 2 y canal 3 101 ubicado en la dirección del vector unitario I 3. Estos vectores se definen con respecto al oyente 100 en un punto de origen y muestran el triángulo activo 105 definido, definido por los tres altavoces. Además, se muestra una fuente 104 virtual ubicada en la dirección del vector unitario p con respecto al oyente 100 dentro del triángulo activo 105.
La siguiente etapa es formular ganancias de panoramización correspondientes a las direcciones de panoramización.
La panoramización de amplitud de base vectorial se refiere al método donde los tres vectores unitarios Ii , I 2 , I 3 (la base vectorial) se suponen desde el punto de origen hasta las posiciones de los tres altavoces que forman el triángulo donde se encuentra la dirección de panoramización tal como se muestra en la Figura 1.
Las ganancias de panoramización para los tres altavoces se determinan de manera que estos tres vectores unitarios se ponderan de manera que su vector de suma ponderado apunta hacia la dirección de panoramización de amplitud deseada. Esto puede resolverse de la siguiente manera. Se formula un vector unitario de columna p que apunta hacia la dirección de panoramización de amplitud deseada, y un vector g que contiene las ganancias de panoramización de amplitud puede resolverse mediante una multiplicación de matriz
donde -1 designa la matriz inversa. Después de formular las ganancias g , se normaliza su nivel global de modo que para las ganancias finales la suma de energía gTg = 1;
Para realizar la panoramización de amplitud, VBAP necesita triangular en primer lugar la configuración de altavoces en 3D. No hay una solución única a la generación de la triangulación y la configuración de altavoces puede triangularse de muchas maneras. En la VBAP típica, la solución es intentar encontrar triángulos de tamaño mínimo (sin altavoces dentro de los triángulos y lados que tienen una longitud lo más igual posible). En un caso general, este es un enfoque válido, ya que trata los objetos auditivos en cualquier dirección por igual, e intenta minimizar las distancias hasta los altavoces que están usándose para crear el objeto auditivo en esa dirección.
Otro método computacionalmente rápido para la triangulación es generar un casco convexo en función de los puntos de datos determinados por los ángulos de altavoz. Este también es un enfoque genérico que trata todas las direcciones y puntos de datos por igual.
Se sabe que la precisión espacial perceptual de la panoramización de amplitud, incluido VBAP, es más robusta cuando la panoramización se realiza con altavoces que están sustancialmente en el eje horizontal con respecto al eje vertical. La razón de esto es que las indicaciones binaurales para la percepción de la elevación están relacionadas principalmente con el espectro de sonido (que no se reproduce bien con la panoramización de amplitud), mientras que las indicaciones binaurales para la percepción de acimut están relacionadas principalmente con el nivel interaural y las diferencias de tiempo (que se reproducen mejor con la panoramización de amplitud).
Por lo tanto, las realizaciones, tal como se comenta a continuación en la presente memoria, realizan la triangulación de manera que también se tiene en cuenta el diferente rendimiento en los ejes horizontal y vertical. Además, como la mayoría de los objetos auditivos se colocan normalmente en el plano horizontal (o cerca del mismo), se espera que la colocación de los bordes de triángulo en el eje horizontal aumente la precisión de la reproducción. El plano es un plano virtual y puede estar localizado (en otras palabras, no es infinito o semi-infinito sino que está limitado).
Normalmente, las configuraciones de altavoces no se distribuyen por igual. En vez de eso, normalmente hay más altavoces en el plano horizontal. Por ejemplo, la configuración de 7.1 habitual con sólo altavoces horizontales (y lowfrequency effects [efectos de baja frecuencia - LFE]) se usa a menudo como base, y sólo se añaden unos pocos altavoces con elevación a esa configuración. Un ejemplo común de ese enfoque es 7.1.4, que contiene 4 altavoces por encima del plano horizontal. En los siguientes ejemplos, se forman configuraciones en 3D completas (altavoces tanto por encima como por debajo del plano horizontal) extendiendo la configuración de 7.1.4 habitual añadiendo 4 altavoces también por debajo del plano horizontal, dando como resultado las siguientes posiciones para los altavoces:
• Elevación de 0 grados, acimut d 0, ±30, ±90 y ±150 grados, que puede definirse como (0,0) 205, (30,0) 207, (90,0) 209, (150,0) no visto en la Figura 2, (-150,0) no vista en la Figura 2, (-90,0) 201, (-30,0) 203.
• Elevación de 30 grados, acimut de ±45 y ±135 grados, que puede definirse como (45,30) 217, (135,30) 215, (-135,30) 211 y (-45,30) 213.
• Elevación de -20 grados, acimut de ±45 y ±135 grados, que puede definirse como (45,-20) 227, (135,-20) no visto en la Figura 2, (-135,-20) no visto en la Figura 2 y (-45,-20) 223.
Este ejemplo de configuración de altavoces se designa como 7.1.8.
Con una configuración de este tipo, como se ilustra en la Figura 2, la triangulación de VBAP por defecto crea un triángulo 231 entre los altavoces en pares (de acimut, de elevación) de (30, 0) 207, (45,30) 217, y (45, -20) 227 grados. Con una triangulación de este tipo, un objeto auditivo a (30, 0) grados se reproducirá con el altavoz a (30, 0) 207 grados, mientras que un objeto auditivo a (45,0) grados, mostrado en la Figura 2 como referencia 241, se reproducirá con los altavoces a (45,30) 217 y (45, -20) 227 grados. La percepción de estos dos será muy diferente (el primero se percibirá como una fuente de tipo punto, mientras que el segundo se percibirá como una fuente extendida verticalmente). Como resultado, un objeto auditivo que rota en el plano horizontal sonará muy diferente en diferentes direcciones.
Este efecto se muestra, por ejemplo, en las Figuras 3a y 3b. En la Figura 3a, los altavoces 301, 303 y 305 se usan en un método de VBAP para representar una fuente “puntual” ubicada en el plano horizontal, pero, como se muestra en la Figura 3a, la fuente 302 de audio de salida aparece dispersada en el plano vertical debido al efecto de los altavoces por encima y por debajo del plano horizontal. En la Figura 3b, los altavoces 311, 313 y 315 se usan para representar una fuente “puntual” también ubicada en el plano horizontal, pero, como se muestra en la Figura 3b, la fuente 312 de audio de salida no está dispersada en el plano a pesar de los altavoces a la izquierda y a la derecha de la fuente.
La panoramización vertical no funciona con respecto al panoramización horizontal por las dos razones siguientes:
Filtrado de peine. La panoramización de amplitud se refiere a reproducir la misma señal en (al menos) dos direcciones. Cuando se produce la panoramización en el eje vertical, independientemente de la rotación horizontal del oyente, los retardos relativos para los sonidos a partir de los dos altavoces que alcanzan los dos oídos son muy similares, y ambos oídos reciben el mismo efecto de filtro de peine. Esto enfatiza el sesgo espectral percibido debido a la panoramización del sonido reproducido, lo que a su vez reduce normalmente la calidad de audio percibida. Por otro lado, la panoramización de amplitud horizontal tiene en promedio una variación mutua más grande de los filtros de peine en los oídos izquierdo y derecho, mitigando de ese modo el fenómeno. Además, la sombra de cabeza reduce los niveles relativos de las señales que alcanzan los oídos izquierdo y derecho, reduciendo también de ese modo la magnitud del efecto del filtro de peine.
Ubicación. En la panoramización de amplitud en el eje vertical, se ha observado que diferentes frecuencias están ubicadas a elevaciones significativamente diferentes. En otras palabras, a qué elevación se percibe el sonido depende del contenido espectral de la señal. Para señales de banda sustancialmente ancha, la fuente se percibe como dispersada o ambigua a lo largo del arco de panoramización determinado por los dos altavoces verticales.
Las realizaciones descritas a continuación en la presente memoria se refieren a la reproducción de audio espacial en 3D con configuraciones de altavoces de múltiples (virtuales o de otro modo) para producir una adaptación automática de la vector base amplitude panning (panoramización de amplitud de base vectorial - VBAP) para configuraciones de altavoces arbitrarias. Además, las realizaciones describen un esquema de triangulación para VBAP que evita los triángulos que cruzan el plano horizontal y, por lo tanto, proporciona una mejor calidad de audio para objetos auditivos colocados en el plano horizontal.
En la Figura 4 se muestra un ejemplo de tal esquema triangular. El lado izquierdo de la Figura 4 muestra la triangulación mostrada en la Figura 2 para el sistema 7.1.8 de ejemplo que incluye los triángulos 401, 403 y 411 y 413 que cruzan el plano horizontal y crean áreas de panoramización vertical para cualquier fuente dentro de estos triángulos, mientras que el lado derecho de la Figura 4 muestra una triangulación de ejemplo producida mediante realizaciones en donde las áreas cubiertas por los triángulos 401 y 403 están ahora representadas por los triángulos 421 (con vértices/esquinas definidos por los altavoces (-90,0) 201, (-30,0) 203 y (-45,30) 213) y 423 (con vértices/esquinas definidos por los altavoces (90,0) 201, (-30,0) 203 y (-45,-30) 223). De manera similar, las áreas cubiertas por los triángulos 411 y 413 ahora están representadas por los triángulos 431 (con vértices/esquinas definidos por los altavoces (90,0) 209, (30,0) 207 y (45,30) 217) y 433 (con vértices/esquinas definidos por los altavoces (90,0) 209, (30,0) 207 y (45,-30) 227).
En algunas realizaciones, el aparato y los métodos describen además una triangulación que no cruza una o más disposiciones de altavoces horizontales por encima o por debajo del plano horizontal. Esto permite optimizar la representación para objetos que se mueven a lo largo de trayectorias circulares por encima o más allá del plano horizontal.
En algunas realizaciones adicionales, el aparato y los métodos describen además definir o diseñar triangulaciones que no cruzan planos arbitrarios, tales como un plano orientado verticalmente. Esto permite una representación óptima para objetos con trayectorias de movimiento arbitrarias.
Las realizaciones tal como se describen en la presente memoria también permiten realizar la selección del método de triangulación de manera adaptativa basándose en el contenido. En tales realizaciones, el aparato y los métodos determinan metadatos espaciales o metadatos de posición de objeto, determinan algunas características de movimiento a partir de los metadatos y seleccionan la triangulación usada en consecuencia.
Se entiende que tales realizaciones son aplicables para triangular altavoces físicos y virtuales. Además, las siguientes realizaciones pueden ser beneficiosas cuando se triangulan filtros binaurales usados para la virtualización de auriculares.
La colocación de objeto auditivo en VBAP se realiza en tres etapas
1) Triangular la configuración de altavoces.
2) Basándose en el parámetro de dirección, seleccionar un triángulo y calcular las ganancias para los altavoces del triángulo.
3) Aplicar las ganancias a la señal de audio que va a posicionarse.
Las etapas 1) y 2) se pueden realizar durante una etapa en desconexión o de inicialización, y el resultado de las mismas es una tabla de consulta de ganancias e índices de tripletes de altavoces que pueden usarse eficazmente en la etapa 3) que realiza procesamiento en tiempo real.
Las realizaciones descritas a continuación en la presente memoria se refieren principalmente a las operaciones de la etapa 1.
Con respecto a las Figuras 5a a 5c, se muestra una vista de aparato de ejemplo y diagramas de flujo de ejemplo de las operaciones según algunas realizaciones. En el siguiente ejemplo, el plano “ no cruzado” es el plano horizontal pero, en algunas realizaciones, puede haber otros planos que se definen como planos “ no cruzados” y el siguiente método y aparato pueden modificarse para realizar operaciones similares para tener esto en cuenta.
En algunas realizaciones, el aparato de ejemplo comprende un determinador/pre-procesador 501 de altavoz. El determinador/pre-procesador de altavoz está configurado para determinar las posiciones de altavoces. En algunas realizaciones, las posiciones de altavoces se proporcionan como una entrada. Pueden estar, por ejemplo, en forma de vectores unitarios o en coordenadas polares.
La operación de determinación de las posiciones de altavoces se muestra en la Figura 5b por la etapa 511.
El determinador/pre-procesador 501 de altavoz puede recibir las posiciones de altavoces y, además, puede añadir, por ejemplo, altavoces virtuales en algunas ubicaciones. Por ejemplo, en algunas realizaciones, el determinador/pre-procesador 501 de altavoz está configurado para añadir un altavoz virtual directamente en la parte superior o en la parte inferior de la esfera. Estos altavoces virtuales adicionales pueden añadirse, por ejemplo, cuando la configuración de altavoces de entrada es escasa para una región definida.
Después del procedimiento de formular las ganancias de panoramización, las ganancias de altavoces virtuales pueden tratarse de varias maneras. En algunas realizaciones, se descartan estas ganancias de panoramización de altavoces virtuales. En algunas realizaciones, las ganancias de panoramización de altavoces virtuales se distribuyen a los altavoces cercanos. En algunas realizaciones, las ganancias de panoramización relacionadas con el altavoz virtual superior (o inferior) se descartan si la elevación (o inclinación) máxima de los altavoces reales es de 20 grados o menos. En algunas realizaciones, se emplea un método de distribución de ganancia si la elevación (o inclinación) máxima de los altavoces reales es más de 20 grados. El método de distribución de ganancia puede distribuir la ganancia del altavoz virtual superior (o inferior) por igual a todos los altavoces con una conexión virtual al altavoz virtual superior (o inferior).
En algunas realizaciones, el determinador/pre-procesador 501 de altavoz está configurado además para mover la información de posición de uno o más altavoces al plano horizontal (o en general, al plano no cruzado). Por ejemplo, el determinador/pre-procesador 501 de altavoz puede estar configurado para determinar que cualquier altavoz dentro de una elevación (o inclinación/declinación) de 5 grados del plano horizontal se establece en la elevación de plano horizontal. Estos altavoces pueden tratarse entonces como una parte del anillo horizontal.
En algunas realizaciones, el determinador/pre-procesador 501 de altavoz está configurado para eliminar algunos altavoces en la configuración de altavoces. Por ejemplo, el determinador/pre-procesador 501 de altavoz está configurado para determinar si los altavoces están muy próximos, p. ej., separados por menos de o igual a 5 grados (puede no ser necesario o preferible usar ambos altavoces para la panoramización de amplitud). En tales realizaciones, uno de los altavoces determinados puede descartarse en la triangulación. Alternativamente, en algunas realizaciones, el determinador/pre-procesador 501 de altavoz está configurado para fusionar los dos altavoces (p. ej., reproduciendo ambos la misma señal).
La operación de pre-procesamiento se muestra en la Figura 5b por la etapa 513.
En algunas realizaciones, el aparato de ejemplo comprende un generador 503 de conector (de mitad superior/mitad inferior/anillo horizontal). El generador 503 de conector puede recibir la salida del determinador/pre-procesador 501 de altavoz.
El generador 503 de conector puede estar configurado entonces para dividir las posiciones de altavoces en tres partes: Los altavoces de plano horizontal, la semiesfera superior (incluida la horizontal) y la semiesfera inferior (incluida la horizontal).
La operación de selección de posiciones de altavoces horizontales y superiores se muestra en la Figura 5b por la etapa 515.
La operación de selección de posiciones de anillo horizontal se muestra en la Figura 5b por la etapa 517.
La operación de selección de posiciones de altavoces horizontales e inferiores se muestra en la Figura 5b por la etapa 519.
Habiendo dividido las posiciones de altavoces en las tres (o cualquier número adecuado de) partes, pueden generarse conexiones entre pares de posiciones de altavoces para cada una de las partes.
Las conexiones para los altavoces de plano horizontal se generan conectando cada altavoz a un altavoz adyacente en el plano horizontal.
La determinación de conexiones para los puntos de datos de anillo horizontal (o posiciones) se muestra en la Figura 5 por la etapa 523.
Puede determinarse la determinación de las conexiones para cada semiesfera (las posiciones de altavoces horizontales e inferiores y las posiciones de altavoces horizontales y superiores).
La determinación de conexiones para los puntos de datos de anillo horizontal y horizontal superior (o posiciones) se muestra en la Figura 5 por la etapa 521.
La determinación de conexiones para los puntos de datos de anillo horizontal y horizontal inferior (o posiciones) se muestra en la Figura 5 por la etapa 525.
Un ejemplo de las operaciones para determinar las conexiones para una semiesfera se muestra en la Figura 5c y puede emplear el siguiente algoritmo:
Determinar una siguiente conexión como se muestra en la Figura 5c por la etapa 541.
Comprobar si la conexión tiene dos altavoces de plano horizontal como se muestra en la Figura 5c por la etapa 542.
Si la conexión tiene dos altavoces de plano horizontal, descartar la conexión como se muestra en la Figura 5c por la etapa 548 y luego pasar a la etapa 549.
Si la conexión no tiene dos altavoces de plano horizontal, entonces se comprueba la conexión para determinar si tiene cualquier altavoz detrás de la conexión, o casi detrás de la conexión (p. ej., dentro de un arco de un grado). Esta detección puede formularse considerando una línea desde el origen hasta cada una de las posiciones de altavoces, y comprobando si cualquiera de estas líneas interseca o casi interseca con la conexión como se muestra en la Figura 5c por la etapa 543.
Si la conexión tiene cualquier altavoz detrás de la conexión, o casi detrás de la conexión, entonces descartar la conexión como se muestra en la Figura 5c por la etapa 548 y luego pasar a la etapa 549.
Si la conexión no tiene altavoces detrás de la conexión, o casi detrás de la conexión, entonces se comprueba la conexión para determinar si la conexión interseca con cualquiera de las conexiones anteriores. Esta detección puede formularse estudiando la intersección de dos planos. Un plano está determinado por dos vectores desde el origen hasta los dos altavoces en una conexión. Si la intersección de plano de dos de tales planos (determinada por dos conexiones diferentes) está dentro de ambas conexiones, entonces se detecta un cruce. La comprobación de una conexión para determinar si la conexión interseca con cualquiera de las conexiones anteriores se muestra en la Figura 5c por la etapa 544. Una intersección de dos bordes de superficie virtual puede interpretarse como una intersección aparente desde un punto de observación definido. En otras palabras, si puede definirse una línea recta de este tipo desde el punto de observación definido que cruza ambos bordes de la superficie virtual, entonces puede suponerse una intersección de estos dos bordes de superficie virtual. Esto significa que se puede detectar el cruce (o la intersección), aunque los bordes (como líneas) pueden no cruzarse en el espacio en 3D.
Cuando no se encuentra ninguna intersección, entonces se mantiene la conexión y el método pasa a la etapa 548
Cuando se encuentra una intersección, entonces se comprueba la nueva conexión para determinar si la nueva conexión es más larga que la conexión comparada anterior como se muestra en la Figura 5c por la etapa 545.
Cuando la nueva conexión es más larga que la conexión comparada anterior, entonces se descarta la nueva conexión como se muestra en la Figura 5c por la etapa 547 y se pasa a la etapa 549.
Cuando la nueva conexión no es más larga que la conexión comparada anterior, entonces se descarta la conexión anterior como se muestra en la Figura 5c por la etapa 546.
Cuando una de las conexiones anteriores interseca y es más larga que la nueva conexión, entonces también puede haber otras conexiones anteriores intersecantes. Por lo tanto, una vez que se descarta una conexión anterior, el método puede aplicar un bucle de nueva comprobación para seguir comprobando la nueva conexión con respecto a todas las conexiones anteriores restantes. Esto se muestra en la Figura 5c cuando se descarta la conexión anterior en el bloque 546, luego se vuelve al bloque 544 para comprobar intersecciones con las conexiones anteriores restantes.
Por lo tanto, la comprobación sólo se detiene si
1) se descarta la nueva conexión, o
2) se comprueban todas las conexiones y no se ha descartado la nueva (aunque se hayan descartado algunas de las conexiones anteriores).
Esta última condición (2) es la condición cuando se almacena la nueva conexión, y después el método procede para comprobar la siguiente nueva conexión.
El determinador de conector puede estar configurado entonces para determinar si se han comprobado todas las conexiones como se muestra en la Figura 5c por la etapa 548.
Cuando se han comprobado todas las conexiones, entonces el procesamiento termina como se muestra en la figura 5c por la etapa 549.
Cuando tienen que comprobarse al menos algunas conexiones, entonces se selecciona la siguiente conexión, en otras palabras, el método pasa de vuelta a la etapa 541.
En algunas realizaciones, la determinación de conexiones también puede tener cierta ponderación aplicada a las operaciones de procesamiento. Por ejemplo, si algunos altavoces forman un anillo (p. ej., un anillo a una elevación definida), cualquier conexión que cruce ese anillo puede ponderarse en la etapa 545, por ejemplo, puede duplicarse su longitud para la comparación. Como resultado de un procedimiento de este tipo, a ese anillo a elevación determinada, las conexiones de altavoces a esa elevación se prefieren en la triangulación y, por lo tanto, también en la panoramización de amplitud resultante.
En algunas realizaciones, cualquier conexión de altavoces que sea más “vertical” que “ horizontal” puede ponderarse de manera similar en la etapa 545 (p. ej., la longitud de la conexión vertical puede duplicarse para la comparación), para preferir las conexiones horizontales debido a un mejor rendimiento perceptual esperado.
El aparato de ejemplo puede comprender además un generador de triángulo (malla) (o combinador de conectores) 505. El generador de triángulo (malla) (o combinador de conector) 505 está configurado para recibir las conexiones determinadas a partir de cada parte (del espacio completo) y combinarlas para generar tripletes/triángulos adecuados o, más generalmente, polígonos como se muestra en la Figura 5b por la etapa 527. Esto puede implementarse en algunas realizaciones mediante:
buscar todos los triángulos que se forman mediante las conexiones determinadas; y
almacenar sólo aquellos triángulos que no tienen un altavoz dentro del triángulo.
El aparato de ejemplo puede comprender además un generador 507 de ganancia configurado para recibir la salida del generador 505 de triángulo (malla) y determinar tripletes de ganancias de panoramización y tripletes de altavoces. En algunas realizaciones, esto puede realizarse como la generación de una tabla de consulta o un cálculo en tiempo real como se muestra en la Figura 5b por la etapa 529.
El conjunto de ángulos de panoramización puede determinarse, por ejemplo, basándose en la precisión de percepción de la dirección del sistema auditivo humano.
Entonces pueden emitirse las ganancias como se muestra en la Figura 5b por la etapa 531.
En algunas realizaciones, el método como se comenta en las realizaciones anteriores puede alternativamente no generar las conexiones de plano horizontal o definido de otra manera por separado, pero también puede simplemente no descartar las conexiones de plano horizontal en cualquiera de las semiesferas superior o inferior. Con respecto a las Figuras 5d y 5e, se muestra un ejemplo adicional mediante una vista de aparato esquemática y un diagrama de flujo de ejemplo de las operaciones según algunas realizaciones que se hace que modifiquen la triangulación de la VBAP habitual.
En algunas realizaciones, las posiciones de altavoces se determinan como se muestra en la Figura 5d por la etapa 561. Como se describe anteriormente, estos altavoces pueden ser altavoces físicos o virtuales. En el ejemplo mostrado en la presente memoria, las posiciones de altavoces se definen en coordenadas esféricas, en otras palabras, con valores de acimut y de elevación.
En algunas realizaciones, se hace que un convertidor 551 o similar convierta los ángulos de altavoz (coordenadas polares) en los puntos de una esfera (coordenadas cartesianas) como se muestra en la Figura 5e por la etapa 563. En algunas realizaciones en las que las posiciones de altavoces ya están definidas en forma de coordenadas cartesianas, entonces el convertidor es opcional y la operación puede omitirse.
En algunas realizaciones, un generador 553 de triángulo o malla está configurado para recibir la salida del convertidor 551 y generar todos los triángulos (o tripletes) posibles entre los altavoces (o más generalmente los bordes de polígono que unen los vértices ubicados a los altavoces) como en la VBAP habitual. En otras palabras, los triángulos se forman entre los altavoces como vértices/esquinas como se muestra en la Figura 5e por la etapa 565. En algunas realizaciones, un analizador 555 de triángulo (o de malla) está configurado para recibir la salida del generador 553 de triángulo o de malla. El analizador 555 de triángulo puede estar configurado para determinar triángulos que tienen bordes que cruzan el plano horizontal. Entonces, estos pueden eliminarse y/o sustituirse por triángulos que no cruzan el plano horizontal.
En otras palabras, la operación es una de identificar y eliminar cualquier triángulo con bordes que cruzan el plano horizontal como se muestra en la Figura 5e por la etapa 567.
Además, en algunas realizaciones, se continúa el análisis y la optimización de la triangulación (es decir, la eliminación de triángulos) según cualquier método conocido. Esto se muestra en la Figura 5e por la etapa 569. El generador 557 de triplete/ganancia está configurado para recibir la salida del analizador 555 de triángulo (malla) y determinar tripletes de ganancias de panoramización y tripletes de altavoces. En algunas realizaciones, esto puede realizarse como la generación de una tabla de consulta o un cálculo en tiempo real.
La operación de formulación (generación) de tablas de panoramización de amplitud que indican para un conjunto de ángulos de panoramización (aci, ele) un triplete de altavoces y las ganancias correspondientes se muestra en la Figura 5e por la etapa 571. El conjunto de ángulos de panoramización puede determinarse, por ejemplo, basándose en la precisión de percepción de la dirección del sistema auditivo humano.
La operación de emitir las tablas de panoramización de amplitud se muestra en la Figura 5e por la etapa 573.
Aunque el método y el aparato en las Figuras 5d y 5e describen un análisis de triángulo con bordes que cruzan el plano horizontal, se entiende que el analizador 555 de triángulo y las operaciones de análisis resultantes pueden realizarse para limitar los cruces de los triángulos a lo largo de cualquier plano, no sólo el plano horizontal.
Con respecto a las Figuras 6a y 6b, se muestra otro ejemplo mediante una vista de aparato esquemática y un diagrama de flujo de ejemplo de las operaciones según algunas realizaciones que se hace que modifiquen la triangulación de la VBAP habitual. Estas realizaciones difieren de las realizaciones anteriores en donde el espacio se divide en dos semiesferas antes de calcular triángulos para cada semiesfera.
En algunas realizaciones, las posiciones de altavoces se determinan como se muestra en la Figura 6b por la etapa 601. De manera similar a lo anterior, estos altavoces pueden ser altavoces físicos o virtuales. En el ejemplo mostrado en la presente memoria, las posiciones de altavoces se definen en coordenadas esféricas, en otras palabras, con valores de acimut y de elevación. En algunas realizaciones, se hace que un convertidor 651 o similar convierta los ángulos de altavoz (coordenadas polares) en los puntos de una esfera (coordenadas cartesianas) como se muestra en la Figura 6b por la etapa 603. En algunas realizaciones en las que las posiciones de altavoces ya están definidas en forma de coordenadas cartesianas, entonces el convertidor es opcional y la operación puede omitirse.
En algunas realizaciones un generador 653 de triángulo o malla de semiesfera superior/inferior está configurado para recibir la salida del convertidor 651. En algunas realizaciones, el generador 653 de triángulo de semiesfera superior/inferior comprende dos generadores separados o dos funciones independientes y está configurado para dividir las posiciones de altavoces en 3D en dos semiesferas, las semiesferas superior (de parte superior) e inferior (de parte inferior). Ambas semiesferas incluyen los altavoces en el plano horizontal.
La operación de seleccionar puntos de datos horizontales y superiores se muestra en la Figura 6b por la etapa 605. Habiendo seleccionado los puntos de datos horizontales y superiores, la siguiente operación es añadir un punto de datos inferior virtual (en otras palabras, a una elevación de -90) como se muestra en la Figura 6b por la etapa 607. La siguiente operación, que puede realizarse por el generador 653 de triángulo o malla de semiesfera superior/inferior, es la generación de bordes entre los puntos de datos (la esfera superior y el punto de datos inferior virtual). En otras palabras, los triángulos se forman entre los altavoces y el punto de datos inferior virtual como se muestra en la Figura 6b por la etapa 609.
En algunas realizaciones, un analizador 655 de triángulo (o malla) de semiesfera superior/inferior está configurado para recibir la salida del generador 653 de triángulo o malla de semiesfera superior/inferior. El analizador 655 de triángulo de semiesfera superior/inferior puede estar configurado para determinar triángulos que tienen bordes que incluyen el punto de datos inferior virtual. Entonces se pueden eliminar.
En otras palabras, la operación es una de identificar y eliminar cualesquiera triángulos con bordes que incluyen el punto de datos inferior virtual como se muestra en la Figura 6b por la etapa 611.
Se puede realizar un conjunto similar de operaciones con respecto a los puntos de datos de semiesfera inferior. La operación de seleccionar puntos de datos horizontales e inferiores se muestra en la Figura 6b por la etapa 604. Habiendo seleccionado los puntos de datos horizontales e inferiores, la siguiente operación es añadir un punto de datos superior virtual (en otras palabras, a una elevación de 90) como se muestra en la Figura 6b por la etapa 606.
La siguiente operación, que puede realizarse por el generador 653 de triángulo o malla de semiesfera superior/inferior, es la generación de triángulos/tripletes entre los puntos de datos (la esfera inferior y el punto de datos superior virtual). En otras palabras, los triángulos se forman entre los altavoces y el punto de datos superior virtual como se muestra en la Figura 6b por la etapa 608.
En algunas realizaciones, un analizador 655 de triángulo (o malla) de semiesfera superior/inferior está configurado para recibir la salida del generador 653 de triángulo o malla de semiesfera superior/inferior. El analizador 655 de triángulo de semiesfera superior/inferior puede estar configurado para determinar triángulos que tienen bordes que incluyen el punto de datos superior virtual. Entonces se pueden eliminar.
En otras palabras, la operación es una de identificar y eliminar cualesquiera triángulos con bordes que incluyen el punto de datos superior virtual como se muestra en la Figura 6b por la etapa 610.
El combinador 657 de triángulo (malla) superior/inferior puede estar configurado para recibir las salidas del generador 655 de triángulo (malla) superior/inferior y que tiene triángulos de semiesfera superior e inferior (parte superior y parte inferior) generados que se combinan para formar una esfera completa. Esto se muestra en la Figura 6b por la etapa 612.
El generador 659 de triplete/ganancia está configurado para recibir la salida del combinador 657 de triángulo (malla) superior/inferior y determinar tripletes de ganancias de panoramización y tripletes de altavoces. En algunas realizaciones, esto puede realizarse como la generación de una tabla de consulta o un cálculo en tiempo real.
La operación de formulación (generación) de tablas de panoramización de amplitud que indican para cada ángulo de panoramización (aci, ele) un triplete de altavoces y las ganancias correspondientes se muestra en la Figura 6b por la etapa 614.
La operación de emitir las tablas de panoramización de amplitud se muestra en la Figura 6b por la etapa 616.
Se observa que no se necesita que los altavoces estén exactamente en el plano horizontal. Por ejemplo, en algunas realizaciones, el método puede usar un umbral de 10 grados de modo que se considera que los altavoces dentro de una elevación de /-10 grados están en el plano horizontal.
Este umbral puede ser un parámetro dentro del sistema.
Una implementación de ejemplo de las realizaciones descritas anteriormente se muestra en la Figura 7, que muestra un renderizador y decodificador de sistema de ejemplo. El decodificador y el renderizador de ejemplo pueden estar configurados para transmitir uno o dos canales de audio y metadatos espaciales. Los metadatos espaciales implican al menos un parámetro direccional en bandas de frecuencia y metadatos de razón en bandas de frecuencia, donde el parámetro de razón (o capacidad de difusión) expresa si el sonido en la banda de frecuencia es direccional o ambiente, o algo intermedio.
Se muestra que el decodificador 700 comprende un demultiplexador y decodificador 701 configurado para recibir un flujo de bits de entrada (de cualquier origen, por ejemplo, sonido espacial captado, codificado y transmitido por un teléfono inteligente). El decodificador y el decodificador 701 están configurados para separar el flujo de bits para dar un componente de señal 706 de audio y metadatos espaciales tales como un componente de metadatos 702 de capacidad de difusión (que define una razón de energía ambiental con respecto a total) y componente de metadatos 704 de dirección.
Las señales de audio dentro del componente 706 de audio se reciben por un banco 703 de filtros directo (puede ser un banco de filtros de bajo retardo de modulación compleja) que está configurado para transformar las señales de audio en bandas de frecuencia.
Las señales de audio de banda de frecuencia pueden recibirse entonces por un divisor 705. El divisor 705 puede recibir además el componente 702 de metadatos de capacidad de difusión y dividir las señales de banda de frecuencia para dar una parte directa 710 y una ambiental 708 (o difusa), por ejemplo, aplicando multiplicadores a las señales de audio en función de los metadatos de razón/capacidad de difusión en bandas de frecuencia.
La parte 708 de ambiente (o difusa) puede recibirse por un descorrelacionador 707 que está configurado para descorrelacionar la parte 708 de ambiente para generar una señal espacialmente incoherente de múltiples canales.
Un generador 715 de tabla de panoramización, tal como el descrito anteriormente con respecto a las Figuras 5a y 6a, puede estar configurado para recibir la información 723 de configuración de altavoces (y otros parámetros tales como el parámetro de umbral descrito anteriormente) y está configurado para generar las tablas de ganancia usando los triángulos sin lados que crucen planos virtuales definidos (por ejemplo, el plano horizontal).
La parte directa 710 puede recibirse por un panoramizador 709 de amplitud. El panoramizador 709 de amplitud puede recibir además los metadatos 704 de dirección y las tablas de panoramización de amplitud a partir del generador 715 de tabla de panoramización. Entonces, las señales de audio de parte directa 710 pueden someterse a panoramización de amplitud en bandas de frecuencia según los metadatos de dirección, usando las tablas de panoramización de amplitud generadas con la presente invención.
Un módulo 711 de suma puede estar configurado para recibir la salida sometida a panoramización de amplitud directa a partir del panoramizador 709 de amplitud y la señal espacialmente incoherente de múltiples canales a partir del descorrelacionador 707 y generar una señal de múltiples canales combinada.
Entonces, un banco 713 de filtros inverso puede estar configurado para recibir la señal combinada y generar una salida 725 de altavoz de múltiples canales adecuada.
Los ejemplos y realizaciones anteriores pueden extenderse para cualquier implementación o caso de uso adecuado donde se requiere una panoramización de amplitud para configuraciones de altavoces en 3D. Un ejemplo es una decodificación de un sonido envolvente en 3D, donde el sonido de múltiples canales implica señales de objetos de audio con metadatos direccionales. Las tablas de panoramización de amplitud para la configuración de altavoces objetivo (por ejemplo, un sistema de altavoces de cine) se generan usando las realizaciones de aparato y método propuestas, y los objetos de audio se reproducen en sus direcciones apropiadas (usando las tablas de panoramización de amplitud o formuladas en tiempo real) según sus metadatos direccionales en función del tiempo.
Una implementación o caso de uso similar es en el audio de juegos, donde los objetos de audio (p. ej., fuentes de sonido en direcciones particulares) se reproducen para configuraciones de altavoces en 3D. En tales implementaciones, al usuario se le puede dar la opción de diseñar de manera flexible la configuración de altavoces en 3D a la geometría de la habitación, y se puede hacer que el método y el aparato como se comentaron en las realizaciones anteriores produzcan ganancias de panoramización de amplitud (o una tabla) optimizadas para esa configuración.
Como se describe anteriormente, en algunas realizaciones pueden extenderse a la generación de triángulos, lo cual garantiza que ningún triángulo cruza otros planos. Por ejemplo, en algunas realizaciones, el generador de ganancia de panoramización de amplitud está configurado para generar ganancias usando triangulación que no permite que triángulos intersequen planos paralelos al plano horizontal de elevación 0 de referencia (así como o en lugar del plano horizontal de elevación 0). En estos ejemplos, las realizaciones siguen los métodos anteriores y en primer lugar se eliminan triángulos que se extienden a través de algunos de los planos horizontales. Esto garantiza que el contenido que se mueve a lo largo de trayectorias horizontales elevadas (donde por ejemplo están ubicados los altavoces) puede reproducirse con una calidad espacial óptima.
El concepto también se puede extender en algunas realizaciones para garantizar que los triángulos no crucen otros planos establecidos arbitrariamente. Esto puede ser ventajoso con ciertos tipos de contenido; por ejemplo, si se sabe que hay varios objetos de sonido que se mueven a lo largo de trayectorias en un plano. Un ejemplo puede ser un plano virtual definido verticalmente, lo cual garantizará que los objetos que se mueven a lo largo de una trayectoria vertical se reproducen espacialmente con precisión.
En algunas realizaciones, la selección de los planos puede basarse de manera adaptativa en el contenido. Estas realizaciones son de tal manera que las operaciones de triangulación pueden diseñarse de manera adaptativa para proporcionar una calidad de reproducción óptima dependiendo de los tipos de contenido.
Un primer ejemplo de un método de planos seleccionados de contenido y aparato adecuado para implementar este método se muestra en las Figuras 8a y 8b. El concepto expresado en este ejemplo es uno de seleccionar uno o más planos que van a usarse como planos “ no cruzados” de tal manera que una cantidad máxima de objetos de sonido están posicionados en el plano y, por lo tanto, se evita generar triángulos con lados que crucen estos planos virtuales definidos.
En algunas realizaciones, el generador de plano basado en contenido comprende una entrada de metadatos espaciales o procesador 851. La entrada de metadatos espaciales o procesador 851 está configurada para obtener o determinar metadatos espaciales asociados con las señales de audio. Por ejemplo, los metadatos espaciales pueden comprender acimut y elevación para placas de tiempo-frecuencia, o metadatos de posición espacial de objetos. Esto se muestra en la Figura 8b por la etapa 801.
En algunas realizaciones, el generador de plano basado en contenido comprende un selector 853 de plano. El selector 853 de plano está configurado para obtener o determinar uno o más planos a partir de un conjunto de planos virtuales predefinidos. Puede haber, por ejemplo, un plano almacenado para cada anillo de altavoces horizontal que puede formarse para la configuración de altavoces definida.
La operación de obtener o determinar uno o más planos a partir de un conjunto de planos virtuales predefinidos se muestra en la Figura 8b por la etapa 803.
En algunas realizaciones, el generador de plano basado en contenido comprende un optimizador 855 de plano. El optimizador 855 de plano puede estar configurado para realizar una operación de cuantificación para cuantificar tales muestras de datos que están más cerca que un umbral predefinido desde el plano en la dimensión de elevación. Un valor umbral adecuado puede ser, por ejemplo, cinco grados.
La cuantificación de datos (posiciones espaciales) se muestra en la Figura 8b por la etapa 805.
El principio de cuantificar posiciones espaciales al plano se representa en la Figura 9.
Por tanto, la Figura 9 muestra un plano definido por un anillo horizontal de altavoces 900, 902, 904, 906. Además, la Figura 9 muestra un primer objeto de sonido, el objeto 1 901 de sonido que está ubicado dentro de un umbral definido del plano. Como tal, el optimizador 855 de plano puede estar configurado para mapear el primer objeto de sonido al plano como objeto 1905 de sonido mapeado. La Figura 9 también muestra un segundo objeto de sonido, el objeto 2903 de sonido, que está ubicado fuera de un umbral definido del plano y no se mapeará al plano. En otras palabras, si la muestra de datos está más lejos que la cantidad de umbral con respecto al plano, se ignora.
Entonces, el optimizador 855 de plano puede estar configurado para contar el número de muestras de datos cuantificadas al plano actual.
La operación de contar el número de muestras de datos cuantificadas al plano se muestra en la Figura 8b por la etapa 807.
Un plano que pasa al máximo a través de posiciones espaciales que contienen contenido de sonido frecuente es el mejor candidato para usarse como plano no cruzado. Por lo tanto, el cuantificador de plano puede determinar si el plano seleccionado actual es el primer plano seleccionado o es mejor que el plano anteriormente almacenado.
La operación de determinar si el plano es el primer o mejor plano para la selección se muestra en la Figura 8b por la etapa 809.
Si este es el primer plano seleccionado o más muestras cuantificadas están en este plano que en el plano anterior, los parámetros del plano se almacenan tal como se muestra en la Figura 8b por la etapa 811.
De lo contrario, el método puede proceder a seleccionar un plano siguiente (por ejemplo, indicando al selector 853 de plano que seleccione otro plano) y repetir el método para este plano recién seleccionado. Esto se muestra en la Figura 8b por la flecha de bucle de “ repetir para todos los planos candidatos” de la etapa 809 y 811 a la etapa 803.
En algunas realizaciones, el optimizador de plano está configurado para determinar si se han procesado todos los planos. Si hay algunos planos que deben comprobarse, se puede hacer que el selector 853 de plano seleccione otro plano para comprobar/procesar. Cuando se han procesado todos los planos, se hace pasar el plano almacenado optimizado para usarse en los métodos de triangulación descritos anteriormente y se usa en vez o además del plano horizontal. En algunas realizaciones, se pueden determinar más de un plano seleccionado de contenido.
Con respecto a la Figura 10, se muestra una implementación de ejemplo de las realizaciones de selección de plano basándose en contenido. La Figura 10 muestra una modificación del aparato mostrado en la Figura 7. En una situación de captación/codificación de contenido y de renderización de este tipo, el sistema puede determinar tales planos de manera adaptativa para diferentes porciones del contenido durante la captación y/o codificación de contenido. En otras palabras, en algunas realizaciones, el aparato de plano relacionado con contenido se implementa dentro del aparato de captación o procesamiento y estos planos no cruzados tal como se determinan mediante análisis de contenido de señal de audio se codifican y pasan al decodificador.
Por lo tanto, por ejemplo, en el aparato mostrado en la Figura 10, el demultiplexador y decodificador 701 está configurado para emitir metadatos 1002 de plano no cruzado.
Los varios planos pueden definirse para la configuración de altavoces dentro del generador 1001 de tabla de panoramización inicial, que puede ser similar al generador de tabla de panoramización mostrado en la Figura 7 que está configurado para calcular tablas de panoramización para triángulos con todos los planos posibles a partir de un conjunto de planos en el decodificador. El parámetro que identifica el plano o planos no cruzados seleccionados basándose en el contenido se señaliza al generador 1003 de tabla de panoramización de contenido optimizado junto con la salida del generador 1001 de tabla de panoramización inicial. Entonces, el generador 1003 de tabla de panoramización de contenido optimizado selecciona las tablas de ganancia que van a usarse. Además, en algunas realizaciones, se señaliza información del sello de tiempo para indicar el período de tiempo en el que debe usarse un plano. Entonces, el renderizador puede realizar una panoramización de VBAP usando las ganancias correspondientes a la triangulación determinada por el generador 1003 de tabla de panoramización de contenido optimizado junto con los metadatos de dirección.
En algunas realizaciones, la determinación de los planos también puede realizarse mediante un creador de contenido en lugar de un mecanismo automático. En la reproducción de objetos de audio, el plano determinado para un objeto puede ser diferente del plano determinado para otro objeto.
Según se describe anteriormente, aunque los ejemplos anteriores se han explicado en el contexto de la reproducción de altavoces, cuando se usan altavoces físicos o virtuales. Sin embargo, la triangulación se puede aplicar también en el contexto del filtrado binaural, cuando se seleccionan los filtros binaurales más cercanos a partir de una base de datos de filtros binaurales para usarse para reproducir un objeto de sonido.
Con respecto a la Figura 11, se muestra un dispositivo electrónico de ejemplo que puede usarse como dispositivo de análisis o síntesis. El dispositivo puede ser cualquier dispositivo o aparato electrónico adecuado. Por ejemplo, en algunas realizaciones, el dispositivo 1400 es un dispositivo móvil, un equipo de usuario, un ordenador de tipo tableta, un ordenador, un aparato de reproducción de audio, etc.
En algunas realizaciones, el dispositivo 1400 comprende al menos un procesador o unidad 1407 de procesamiento central. El procesador 1407 puede estar configurado para ejecutar diversos códigos de programa tales como los métodos tales como los descritos en la presente memoria.
En algunas realizaciones, el dispositivo 1400 comprende una memoria 1411. En algunas realizaciones, el al menos un procesador 1407 está acoplado a la memoria 1411. La memoria 1411 puede ser cualquier medio de almacenamiento adecuado. En algunas realizaciones, la memoria 1411 comprende una sección de código de programa para almacenar códigos de programa que pueden implementarse en el procesador 1407. Además, en algunas realizaciones, la memoria 1411 puede comprender además una sección de datos almacenados para almacenar datos, por ejemplo datos que se han procesado o que van a procesarse según las realizaciones como se describe en la presente memoria. El código de programa implementado almacenado dentro de la sección de código de programa y los datos almacenados dentro de la sección de datos almacenados pueden recuperarse por el procesador 1407 siempre que sea necesario a través del acoplamiento de memoria-procesador.
En algunas realizaciones, el dispositivo 1400 comprende una interfaz 1405 de usuario. En algunas realizaciones, la interfaz 1405 de usuario puede estar acoplada al procesador 1407. En algunas realizaciones, el procesador 1407 puede controlar el funcionamiento de la interfaz 1405 de usuario y recibir entradas de la interfaz 1405 de usuario. En algunas realizaciones, la interfaz 1405 de usuario puede permitir que un usuario introduzca comandos al dispositivo 1400, por ejemplo, a través de un teclado. En algunas realizaciones, la interfaz 1405 de usuario puede permitir que el usuario obtenga información a partir del dispositivo 1400. Por ejemplo, la interfaz 1405 de usuario puede comprender un elemento de visualización configurado para visualizar información del dispositivo 1400 al usuario. En algunas realizaciones, la interfaz 1405 de usuario puede comprender una pantalla táctil o una interfaz táctil que puede tanto permitir introducir información al dispositivo 1400 como visualizar adicionalmente información al usuario del dispositivo 1400. En algunas realizaciones, la interfaz 1405 de usuario puede ser la interfaz de usuario para comunicarse con el determinador de posición como se describe en la presente memoria.
En algunas realizaciones, el dispositivo 1400 comprende un puerto 1409 de entrada/salida. En algunas realizaciones, el puerto 1409 de entrada/salida comprende un transceptor. En tales realizaciones, el transceptor puede estar acoplado al procesador 1407 y configurado para permitir una comunicación con otros aparatos o dispositivos electrónicos, por ejemplo, a través de una red de comunicación inalámbrica. En algunas realizaciones, el transceptor o cualquier transceptor o medios de transmisor y/o receptor adecuado puede estar configurado para comunicarse con otros dispositivos o aparatos electrónicos a través de un cable o acoplamiento por cable.
El transceptor puede comunicarse con un aparato adicional mediante cualquier protocolo de comunicaciones conocido adecuado. Por ejemplo, en algunas realizaciones, el transceptor puede usar un protocolo de universal mobile telecommunications system (sistema universal de telecomunicaciones móviles - UMTS), un protocolo de wireless local area network (red de área local inalámbrica - WLAN) tal como por ejemplo IEEE 802.X, un protocolo de comunicación de radiofrecuencia de corto alcance adecuado tal como Bluetooth, o infrared data communication pathway (ruta de comunicación de datos por infrarrojos - IRDA).
El puerto 1409 de entrada/salida del transceptor puede estar configurado para recibir las señales y, en algunas realizaciones, determinar los parámetros como se describe en la presente memoria mediante el uso del procesador 1407 que ejecuta un código adecuado. Además, el dispositivo puede generar una salida de señal de mezcla descendente y de parámetros adecuada que va a transmitirse al dispositivo de síntesis.
En algunas realizaciones, el dispositivo 1400 puede emplearse como al menos parte del dispositivo de síntesis. Como tal, el puerto 1409 de entrada/salida puede estar configurado para recibir las señales de mezcla descendente y, en algunas realizaciones, los parámetros determinados en el dispositivo de captación o dispositivo de procesamiento como se describe en la presente memoria, y generar una salida de formato de señal de audio adecuada mediante el uso del procesador 1407 que ejecuta un código adecuado. El puerto 1409 de entrada/salida puede acoplarse a cualquier salida de audio adecuada, por ejemplo, a un sistema de altavoces de múltiples canales y/o auriculares o similar.
En general, las diversas realizaciones de la invención pueden implementarse en hardware o circuitos de propósito especial, software, lógica o cualquier combinación de los mismos. Por ejemplo, algunos aspectos pueden implementarse en hardware, mientras que otros aspectos pueden implementarse en firmware o software que puede ejecutarse por un controlador, microprocesador u otro dispositivo informático, aunque la invención no se limita a los mismos. Aunque diversos aspectos de la invención pueden ilustrarse y describirse como diagramas de bloques, diagramas de flujo, o usando alguna otra representación gráfica, se entiende que estos bloques, aparatos, sistemas, técnicas o métodos descritos en la presente memoria pueden implementarse, como ejemplos no limitativos, en hardware, software, firmware, circuitos o lógica de propósito especial, hardware de propósito general o controlador u otros dispositivos informáticos, o alguna combinación de los mismos.
Las realizaciones de esta invención pueden implementarse mediante software informático ejecutable por un procesador de datos del dispositivo móvil, tal como en la entidad de procesador, o mediante hardware, o mediante una combinación de software y hardware. Además, en este sentido, cabe señalar que cualesquiera bloques del flujo lógico como en las Figuras puede representar etapas del programa, o circuitos lógicos interconectados, bloques y funciones, o una combinación de etapas de programa y circuitos lógicos, bloques y funciones. El software puede almacenarse en medios físicos tales como chips de memoria, o bloques de memoria implementados dentro del procesador, medios magnéticos tales como disco duro o disquetes, y medios ópticos tales como, por ejemplo, DVD y sus variantes de datos, CD.
La memoria puede ser de cualquier tipo adecuado para el entorno técnico local y puede implementarse usando cualquier tecnología de almacenamiento de datos adecuada, tal como dispositivos de memoria basados en semiconductores, dispositivos y sistemas de memoria magnéticos, dispositivos y sistemas de memoria ópticos, memoria fija y memoria extraíble. Los procesadores de datos pueden ser de cualquier tipo adecuado para el entorno técnico local, y pueden incluir uno o más de ordenadores de propósito general, ordenadores de propósito especial, microprocesadores, digital signal processors (procesadores de señales digitales - DSP), application specific integrated circuits (circuitos integrados específicos de aplicación - ASIC), circuitos de nivel de puerta y procesadores basados en arquitectura de procesador de múltiples núcleos, como ejemplos no limitativos.
Las realizaciones de las invenciones pueden ponerse en práctica en diversos componentes tales como módulos de circuito integrado. El diseño de circuitos integrados es, en gran medida, un proceso altamente automatizado. Hay herramientas de software complejas y potentes disponibles para convertir un diseño de nivel lógico en un diseño de circuito de semiconductores listo para grabarse y formarse en un sustrato semiconductor.
Los programas, tales como los proporcionados por Synopsys, Inc. de Mountain View, California y Cadence Design, de San Jose, California, enrutan automáticamente conductores y localizan componentes en un chip de semiconductor usando reglas de diseño bien establecidas, así como bibliotecas de módulos de diseño previamente almacenados. Una vez que se ha completado el diseño para un circuito de semiconductor, el diseño resultante, en un formato electrónico normalizado (p. ej., Opus, GDSII o similar) puede transmitirse a una instalación de fabricación de semiconductores o “fab” para su fabricación.
La descripción anterior ha proporcionado, a modo de ejemplo y como ejemplos no limitativos, una descripción completa e informativa de la realización ilustrativa de esta invención. Sin embargo, diversas modificaciones y adaptaciones pueden resultar evidentes para los expertos en las técnicas relevantes a la vista de la descripción anterior, cuando se lee junto con los dibujos adjuntos y las reivindicaciones adjuntas.

Claims (12)

  1. REIVINDICACIONES
    i. Un aparato para la decodificación de señal de audio espacial asociado con una pluralidad de nodos de altavoz colocados dentro de un espacio tridimensional, en donde el aparato está configurado para:
    determinar una disposición de superficie virtual no solapante, en donde la disposición de superficie virtual comprende una pluralidad de superficies virtuales con esquinas posicionadas en al menos tres nodos de altavoz de la pluralidad de nodos de altavoz y lados que conectan pares de esquinas configurados para no intersecarse con al menos un plano virtual definido dentro del espacio tridimensional, en donde la disposición de superficie virtual no solapante está determinada por el aparato que está configurado para dividir los nodos de altavoz en partes, en donde al menos una parte comprende nodos de altavoz ubicados a un lado o en el plano virtual definido, y al menos una parte adicional comprende nodos de altavoz ubicados en el otro lado o en el plano virtual definido; determinar (503) bordes de superficie virtual para la al menos una parte y bordes de superficie virtual para la al menos una parte adicional; y combinar (505) los bordes de superficie virtual para la al menos una parte y los bordes de superficie virtual para la al menos una parte adicional para generar la pluralidad de superficies virtuales y, por lo tanto, determinar la disposición de superficie virtual no solapante;
    generar (507) ganancias para los nodos de altavoz basándose en la disposición de superficie virtual determinada;
    aplicar las ganancias a al menos una señal de audio, teniendo que posicionarse la al menos una señal de audio dentro del espacio tridimensional, en donde el aparato está caracterizado por estar configurado, cuando se dividen los nodos de altavoz en partes, para dividir los nodos de altavoz en una parte adicional que comprende nodos de altavoz ubicados en o cerca del plano virtual definido, en donde el aparato, cuando se determinan los bordes de superficie virtual para la al menos una parte, está configurado además para conectar virtualmente nodos de altavoz para la al menos una parte que comprende nodos de altavoz ubicados en o cerca del plano virtual definido.
  2. 2. El aparato según la reivindicación 1, en donde el aparato configurado para determinar el al menos un borde de superficie virtual está configurado además para:
    determinar bordes de superficie virtual candidatos basándose en seleccionar pares de nodos de altavoz; y
    procesar los bordes de superficie virtual candidatos para determinar los bordes de superficie virtual.
  3. 3. El aparato según la reivindicación 2, en donde el aparato configurado para procesar los bordes de superficie virtual candidatos para determinar los bordes de superficie virtual está configurado además para:
    seleccionar uno de los bordes de superficie virtual candidatos hasta que se seleccionan todos los bordes de superficie virtual candidatos;
    descartar el uno de los bordes de superficie virtual candidatos cuando el uno de los bordes de superficie virtual candidatos cruza el plano virtual definido;
    descartar el uno de los bordes de superficie virtual candidatos cuando el uno de los bordes de superficie virtual candidatos tiene cualquier nodo de altavoz sustancialmente detrás, con respecto a un punto de observación definido, el uno de los bordes de superficie virtual candidatos; y determinar si el uno de los bordes de superficie virtual candidatos interseca con al menos un borde de superficie virtual candidato anterior y descartar el al menos un borde de superficie virtual candidato anterior cuando el borde de superficie virtual candidato anterior era más largo y descartar de lo contrario el uno de los bordes de superficie virtual candidatos.
  4. 4. El aparato según la reivindicación 3, en donde el aparato configurado para determinar si el uno de los bordes de superficie virtual candidatos interseca con al menos un borde de superficie virtual candidato anterior y descartar el al menos un borde de superficie virtual candidato anterior cuando el borde de superficie virtual candidato anterior era más largo y descartar de lo contrario el uno de los bordes de superficie virtual candidatos se hace que aplique al menos una ponderación de una longitud de uno u otro de los bordes de superficie virtual candidatos y/o el borde de superficie virtual candidato anterior antes de una comparación.
  5. 5. El aparato según cualquiera de las reivindicaciones 1 a 4, configurado además para añadir al menos un nodo de altavoz virtual en una ubicación definida.
  6. 6. El aparato según la reivindicación 5, configurado para añadir al menos un nodo de altavoz virtual en una ubicación definida se hace que realice al menos uno de:
    añadir (606) un nodo de altavoz virtual directamente en la parte superior de una esfera definida por los nodos de altavoz;
    añadir (607) un nodo de altavoz virtual directamente en la parte inferior de una esfera definida por los nodos de altavoz; y
    añadir al menos un nodo de altavoz virtual donde se determina que los nodos de altavoz son escasos.
  7. 7. El aparato según cualquiera de las reivindicaciones 1 a 6, configurado además para mover al menos un nodo de altavoz al plano virtual definido cuando el al menos un nodo de altavoz está dentro de una distancia umbral definida del plano virtual definido.
  8. 8. El aparato según cualquiera de las reivindicaciones 1 a 7, configurado además para eliminar al menos un nodo de altavoz cuando el al menos un nodo de altavoz está dentro de una distancia umbral definida de al menos un nodo de altavoz adicional.
  9. 9. El aparato según cualquiera de las reivindicaciones 1 a 8, configurado además para fusionar al menos dos nodos de altavoz cuando los al menos dos nodos de altavoz están dentro de una distancia umbral definida uno de otro.
  10. 10. El aparato según cualquiera de las reivindicaciones 1 a 9, en donde el plano virtual definido es al menos uno de:
    un plano horizontal con una elevación de cero;
    un plano horizontal que une al menos dos o más nodos de altavoz;
    un plano que une al menos dos o más nodos de altavoz; y
    un plano definido mediante análisis de la al menos una señal de audio.
  11. 11. El aparato según cualquiera de las reivindicaciones 1 a 10, en donde los nodos de altavoz comprenden al menos uno de:
    un altavoz físico;
    un altavoz virtual; y
    un nodo de filtro binaural.
  12. 12. Un método que comprende:
    determinar una disposición de superficie virtual no solapante en un espacio tridimensional que incluye una pluralidad de nodos de altavoz, comprendiendo la disposición de superficie virtual una pluralidad de superficies virtuales con esquinas posicionadas en al menos tres nodos de altavoz de la pluralidad de nodos de altavoz y lados que conectan pares de esquinas configurados para no intersecarse con al menos un plano virtual definido dentro del espacio tridimensional, en donde determinar la disposición de superficie virtual no solapante comprende: dividir los nodos de altavoz en partes, en donde al menos una parte comprende nodos de altavoz ubicados a un lado o en el plano virtual definido, y al menos una parte adicional comprende nodos de altavoz ubicados en el otro lado o en el plano virtual definido; determinar (503) bordes de superficie virtual para la al menos una parte y bordes de superficie virtual para la al menos una parte adicional; y combinar (505) los bordes de superficie virtual para la al menos una parte y los bordes de superficie virtual para la al menos una parte adicional para generar la pluralidad de superficies virtuales y, por lo tanto, determinar la disposición de superficie virtual no solapante;
    generar (507) ganancias para los nodos de altavoz basándose en la disposición de superficie virtual determinada; y
    aplicar las ganancias a al menos una señal de audio, teniendo que posicionarse la al menos una señal de audio dentro del espacio tridimensional, en donde el método está caracterizado por que dividir los nodos de altavoz en partes comprende dividir los nodos de altavoz en una parte adicional que comprende nodos de altavoz ubicados en o cerca del plano virtual definido, en donde determinar los bordes de superficie virtual para la al menos una parte comprende además conectar virtualmente nodos de altavoz para la al menos una parte que comprende nodos de altavoz ubicados en o cerca del plano virtual definido.
ES18161580T 2018-03-13 2018-03-13 Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales Active ES2913426T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18161580.8A EP3541097B1 (en) 2018-03-13 2018-03-13 Spatial sound reproduction using multichannel loudspeaker systems

Publications (1)

Publication Number Publication Date
ES2913426T3 true ES2913426T3 (es) 2022-06-02

Family

ID=61628263

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18161580T Active ES2913426T3 (es) 2018-03-13 2018-03-13 Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales

Country Status (5)

Country Link
US (1) US11302339B2 (es)
EP (1) EP3541097B1 (es)
CN (1) CN111869241B (es)
ES (1) ES2913426T3 (es)
WO (1) WO2019175473A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376528A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
WO2023139308A1 (en) * 2022-01-18 2023-07-27 Nokia Technologies Oy Efficient loudspeaker surface search for multichannel loudspeaker systems

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9674631B2 (en) 2012-09-24 2017-06-06 Barco Nv Method for controlling a three-dimensional multi-layer speaker arrangement and apparatus for playing back three-dimensional sound in an audience area
EP2979467B1 (en) * 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
KR102226420B1 (ko) * 2013-10-24 2021-03-11 삼성전자주식회사 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치
EP2892250A1 (en) * 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
EP3143779B1 (en) 2014-05-13 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for edge fading amplitude panning

Also Published As

Publication number Publication date
CN111869241B (zh) 2021-12-24
WO2019175473A1 (en) 2019-09-19
EP3541097A1 (en) 2019-09-18
US11302339B2 (en) 2022-04-12
CN111869241A (zh) 2020-10-30
US20200411020A1 (en) 2020-12-31
EP3541097B1 (en) 2022-04-13

Similar Documents

Publication Publication Date Title
ES2650541T3 (es) Renderización de objetos de audio de tamaño aparente en distribuciones de altavoces arbitrarias
ES2922639T3 (es) Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
US11950086B2 (en) Applications and format for immersive spatial sound
ES2772851T3 (es) Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
ES2755349T3 (es) Renderización binaural para auriculares utilizando procesamiento de metadatos
EP2954702B1 (en) Mapping virtual speakers to physical speakers
TWI686794B (zh) 以保真立體音響格式所編碼聲訊訊號為l個揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
US10674301B2 (en) Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US11350230B2 (en) Spatial sound rendering
US11350213B2 (en) Spatial audio capture
ES2913426T3 (es) Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales
ES2964178T3 (es) Renderización de sonido espacial
KR102284811B1 (ko) 인코히어런트 멱등 앰비소닉스 렌더링
US10750307B2 (en) Crosstalk cancellation for stereo speakers of mobile devices
ES2954317T3 (es) Técnica de reverberación para audio 3D
US20230370777A1 (en) A method of outputting sound and a loudspeaker
KR102519156B1 (ko) 무선 헤드셋을 사용해 휴대 기기 위치를 알려주는 방법 및 시스템
WO2023139308A1 (en) Efficient loudspeaker surface search for multichannel loudspeaker systems