ES2900653T3 - Adaptación relacionada con pantalla de contenido de HOA - Google Patents

Adaptación relacionada con pantalla de contenido de HOA Download PDF

Info

Publication number
ES2900653T3
ES2900653T3 ES19198794T ES19198794T ES2900653T3 ES 2900653 T3 ES2900653 T3 ES 2900653T3 ES 19198794 T ES19198794 T ES 19198794T ES 19198794 T ES19198794 T ES 19198794T ES 2900653 T3 ES2900653 T3 ES 2900653T3
Authority
ES
Spain
Prior art keywords
audio
matrix
hoa
viewing window
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19198794T
Other languages
English (en)
Inventor
Nils Günther Peters
Martin James Morrell
Dipanjan Sen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2900653T3 publication Critical patent/ES2900653T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

Un dispositivo para renderizar una señal de audio ambisónica de orden superior, HOA, comprendiendo el dispositivo: uno o más procesadores configurados para: recibir un flujo de bits que comprende datos de audio HOA (11') asociados con una señal de audio HOA (21) y uno o más parámetros de campo de visión, FOV (13') de una pantalla de referencia; determinar una matriz de renderización (R') para los datos de audio de HOA; en respuesta a una operación de zoom iniciada por el usuario, determinar uno o más parámetros del campo de visión, FOV, de una ventana de visualización ampliada; modificar la matriz de renderización (R') para los datos de audio HOA basándose en uno o más parámetros de FOV de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización ampliada para formar una matriz de renderización modificada (D); y aplicar la matriz de renderización modificada (D) a al menos una porción de los datos de audio de HOA (11') para renderizar la señal de audio de HOA en una o más alimentaciones de altavoz (25).

Description

DESCRIPCIÓN
Adaptación relacionada con pantalla de contenido de HOA
Campo técnico
Esta divulgación se refiere a datos de audio y, más específicamente, a la codificación de datos de audio ambisónicos de orden superior.
Antecedentes
Una señal ambisónica de orden superior (HOA) (a menudo representada por una pluralidad de coeficientes armónicos esféricos (SHC) u otros elementos jerárquicos) es una representación tridimensional de un campo sonoro. Esta representación de HOA o SHC puede representar el campo sonoro de una manera que sea independiente de la geometría del altavoz local utilizado para reproducir una señal de audio multicanal renderizada a partir de esta señal SHC. Esta señal SHC también puede facilitar la compatibilidad inversa, ya que la señal SHC puede renderizarse en formatos multicanal bien conocidos y sumamente adoptados, tales como un formato de canal de audio 5.1 o un formato de canal de audio 7.1. La representación SHC puede, por lo tanto, permitir una mejor representación de un campo sonoro que también asimila la compatibilidad inversa.
En el documento " Screen-Related Object Remapping for Zooming" of Runyu Shi et al (109th MPEG Meeting 7-7-2014 to 11-7-2014, Sapporo, número de documento m34253) se presenta una descripción técnica para hacer acercamiento en el contexto de reasignar una posición de un objeto con respecto a un área ampliada en una pantalla.
En el documento " Proposal to add new functions to output document N14464 on Metadata: Screen-related object" se describe, en el contexto del movimiento de los objetos de audio de acuerdo con el cambio de tamaño de la pantalla, una extensión de la tecnología para lograr funciones adicionales tales como acercamiento y exploración.
En el documento "ISO/IEC DIS 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio”, se presenta un proyecto de norma internacional que especifica la tecnología que soporta la transmisión eficiente de señales de audio en 3D y renderizado flexible para la reproducción de audio 3D en una amplia variedad de escenarios de escucha. Estos incluyen configuraciones de cine en casa en 3D, sistemas de altavoces 22.2, sistemas de entretenimiento automotriz y reproducción a través de auriculares conectados a una tableta o teléfono inteligente.
En el documento EP 2.637.427 A1 se describe un método para la reproducción de una señal de audio original Ambisónica de Orden Superior asignada a una señal de video que se va a presentar en una pantalla actual pero que fue generada para una pantalla original y diferente, incluyendo dicho método las etapas: decodificar dicha señal de audio original Ambisónica de Orden Superior para proporcionar señales de audio decodificadas; recibir o establecer información de adaptación de reproducción derivada de la diferencia entre dicha pantalla original y dicha pantalla actual en sus anchos y posiblemente sus alturas y posiblemente sus curvaturas; adaptar dichas señales de audio decodificadas al deformarlas en el dominio del espacio, en el que dicha información de adaptación de reproducción controla dicha deformación de modo que para un observador y oyente de la pantalla actual de dichas señales de audio decodificadas adaptadas, la posición percibida de al menos un objeto de audio representado por dichas señales de audio decodificadas adaptadas coinciden con la posición percibida de un objeto de video relacionado en dicha pantalla; y rederizar y emitir para altavoces las señales de audio decodificadas adaptadas.
Sumario
En general, se describen técnicas para la codificación de datos de audio ambisónicos de orden superior. Los datos de audio ambisónicos de orden superior pueden comprender al menos un coeficiente ambisónico de orden superior (HOA) correspondiente a una función de base armónica esférica que tiene un orden mayor que uno. Esta divulgación describe técnicas para ajustar los campos de sonido HOA para mejorar potencialmente la alineación espacial de los elementos acústicos con el componente visual en un escenario mixto de reproducción de audio/video.
La invención se define en las reivindicaciones anexas.
En un ejemplo, esta divulgación incluye un dispositivo para renderizar una señal de audio ambisónico de orden superior (HOA) que incluye uno o más procesadores configurados para renderizar la señal de audio HOA a través de uno o más altavoces con base en uno o más campos de parámetros de visión (FOV) de una pantalla de referencia y uno o más parámetros FOV de una ventana de visualización.
En otro ejemplo, esta divulgación incluye un método de renderización de una señal de audio ambisónico de orden superior (HOA) que incluye la renderización de la señal de audio HOA en uno o más altavoces con base en uno o más parámetros de campo de visión (FOV) de una pantalla de referencia. y uno o más parámetros FOV de una ventana de visualización.
En otro ejemplo, esta divulgación incluye un medio de almacenamiento legible por ordenador que almacena instrucciones que, cuando son ejecutadas por uno o más procesadores, hacen que uno o más procesadores generen una señal de audio ambisónica de orden superior (HOA), incluida la reproducción de la señal de audio HOA sobre uno o más altavoces con base en uno o más parámetros de campo de visión (FOV) de una pantalla de referencia y uno o más parámetros de FOV de una ventana de visualización.
Los detalles de uno o más aspectos de las técnicas se exponen en los dibujos adjuntos y la descripción a continuación. Otras características, objetivos y ventajas de las técnicas resultarán evidentes a partir de la descripción y de los dibujos y a partir de las reivindicaciones.
Breve descripción de los dibujos
La FIG. 1 es un diagrama que ilustra funciones de base armónicas esféricas de varios órdenes y sub-órdenes. La FIG. 2 es un diagrama que ilustra un sistema que puede realizar diversos aspectos de las técnicas descritas en esta divulgación.
La FIG. 3 es un diagrama de bloques que ilustra, con mayor detalle, otro ejemplo de un dispositivo de codificación de audio mostrado en el ejemplo de la f Ig . 2 que puede realizar diversos aspectos de las técnicas descritas en esta divulgación.
La FIG. 4 es un diagrama de bloques que ilustra el dispositivo de descodificación de audio de la FIG. 2 con mayor detalle.
La FIG. 5 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de codificación de audio en el modo de realización de diversos aspectos de las técnicas de síntesis basadas en vectores descritas en esta divulgación.
La FIG. 6 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de descodificación de audio en el modo de realización de diversos aspectos de las técnicas descritas en esta divulgación.
La FIG. 7A muestra una función de asignación de ejemplo que puede usarse para asignar ángulos de acimut originales a ángulos de acimut modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 7B muestra una función de asignación de ejemplos que puede usarse para asignar ángulos de elevación originales a ángulos de elevación modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 8 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el primer ejemplo.
Las FIGS. 9A y 9B muestran ejemplos de matrices de efecto HOA calculadas.
La FIG. 10 muestra un ejemplo de cómo una matriz de efectos puede renderizarse previamente y aplicarse a la matriz de renderización de altavoces.
La FIG. 11 muestra un ejemplo de cómo si la matriz de efectos puede dar como resultado un contenido de orden superior (por ejemplo, 6° orden), se puede multiplicar una matriz de renderización en este orden para calcular previamente la matriz de renderización final en el orden original (aquí 3er orden).
La FIG. 12A muestra una función de asignación de ejemplo que puede usarse para asignar ángulos de acimut originales a ángulos de acimut modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 12B muestra una función de asignación de ejemplos que puede usarse para asignar ángulos de elevación originales a ángulos de elevación modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 12C muestra una matriz de efecto HOA calculada.
La FIG. 13 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización.
La FIG. 14A muestra una función de asignación de ejemplo que puede usarse para asignar ángulos de acimut originales a ángulos de acimut modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 14B muestra una función de asignación de ejemplos que puede usarse para asignar ángulos de elevación originales a ángulos de elevación modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 14C muestra una matriz de efecto HOA calculada.
La FIG. 15 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización.
La FIG. 16A muestra una función de asignación de ejemplo que puede usarse para asignar ángulos de acimut originales a ángulos de acimut modificados en función de un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 16B muestra una función de asignación de ejemplos que puede usarse para asignar ángulos de elevación originales a ángulos de elevación modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 16C muestra una matriz de efecto HOA calculada.
La FIG. 17 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización.
La FIG. 18A muestra una función de asignación de ejemplo que puede usarse para asignar ángulos de acimut originales a ángulos de acimut modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 18B muestra una función de asignación de ejemplos que puede usarse para asignar ángulos de elevación originales a ángulos de elevación modificados basados en un tamaño de pantalla de referencia y un tamaño de ventana de visualización.
La FIG. 18C muestra una matriz de efecto HOA calculada.
La FIG. 19 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización.
Las FIGS. 20A-20C son diagramas de bloques que ilustran implementaciones de ejemplo de dispositivos de reproducción de audio configurados para implementar las técnicas de esta divulgación.
La FIG. 21 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de decodificación de audio al realizar las técnicas de adaptación basadas en pantalla descritas en esta divulgación.
Descripción detallada
La evolución del sonido envolvente ha dejado disponibles muchos formatos de salida para el entretenimiento de hoy en día. Los ejemplos de tales formatos de sonido envolvente para el consumidor son en su mayoría "canales" basados en que, implícitamente, especifican las señales a los altavoces en ciertas coordenadas geométricas. Los formatos de sonido envolvente para el consumidor incluyen el popular formato 5.1 (que incluye los siguientes seis canales: delantero izquierdo (FL), delantero derecho (FR), central o delantero central, posterior izquierdo o envolvente izquierdo, posterior derecho o envolvente derecho, y los efectos de baja frecuencia (LFE)), el formato creciente 7.1, varios formatos que incluyen altavoces de altura tales como el formato 7.1.4 y el formato 22.2 (por ejemplo, para usar con la norma de Televisión de Ultra Alta Definición). Los formatos que no son para el consumidor pueden abarcar cualquier número de altavoces (en geometrías simétricas y no simétricas) a menudo denominados "formaciones envolventes". Un ejemplo de una configuración de este tipo incluye 32 altavoces colocados en coordenadas en las esquinas de un icosaedro truncado.
La entrada a un futuro codificador de MPEG es, opcionalmente, uno de tres formatos posibles: (i) audio tradicional basado en canales (como se ha analizado anteriormente), que está destinado a ser reproducido mediante altavoces en posiciones preestablecidas; (ii) audio basado en objetos, que implica datos discretos de modulación por código de pulso (PCM) para objetos de audio individuales con metadatos asociados que contienen sus coordenadas de ubicación (entre otra información); y (iii) audio basado en la escena, que implica la representación del campo sonoro utilizando coeficientes de funciones de base armónica esférica (también llamados "coeficientes armónicos esféricos" o SHC, "ambisónicos de orden superior" o HOA y "coeficientes HOA"). El futuro codificador de MPEG se puede describir con mayor detalle en un documento titulado "Cali for Proposals for 3D Audio", de la Organización Internacional para la Estandarización/Comisión Electrotécnica Internacional (ISO)/(IEC) JTC1/SC29/WG11/N13411, publicado en enero de 2013 en Ginebra, Suiza, y disponible en http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip.
Hay varios formatos basados en canales de "sonido envolvente" en el mercado. Varían, por ejemplo, desde el sistema de cine en casa 5.1 (que es el que ha tenido el mayor éxito en cuanto a irrumpir en las salas de estar, más allá del estéreo) hasta el sistema 22.2 desarrollado por NHK (Nippon Hoso Kyokai o Corporación Difusora de Japón). Los creadores de contenido (por ejemplo, los estudios de Hollywood) desearían producir la banda sonora de una película una vez y no gastar esfuerzos en remezclarla para cada configuración de altavoces. Recientemente, las Organizaciones de Desarrollo de Normas han estado considerando maneras de proporcionar una codificación en un flujo de bits estandarizado y una descodificación subsiguiente que sea adaptable e indiferente con respecto a la geometría (y número) de los altavoces y a las condiciones acústicas en la ubicación de la reproducción (que implica un renderizador).
Para proporcionar dicha flexibilidad a los creadores de contenido, se puede usar un conjunto jerárquico de elementos para representar un campo sonoro. El conjunto jerárquico de elementos puede referirse a un conjunto de elementos en el que los elementos están ordenados de tal manera que un conjunto básico de elementos de orden inferior proporciona una representación completa del campo sonoro modelado. A medida que el conjunto se extiende para incluir elementos de orden superior, la representación se torna más detallada, aumentando la resolución.
Un ejemplo de un conjunto jerárquico de elementos es un conjunto de coeficientes armónicos esféricos (SHC). La siguiente expresión demuestra una descripción o representación de un campo sonoro usando SHC:
Figure imgf000005_0001
La expresión muestra que la presión p, en cualquier punto {rr, 9r, 0r} del campo sonoro, en el tiempo t,
A%Q¿) k = - puede representarse únicamente por el SHC, . Aquí, c , c es la velocidad del sonido (-343 m/s), {/>, 6r, <pr} es un punto de referencia (o punto de observación), j n( ) es la función de Bessel esférica de orden n, y Ynm( V6 r> ( Ho 'rJ ^ son |as funciones de base armónica esférica de orden n y suborden m. Se puede reconocer que el término entre corchetes es una representación de la señal en el dominio de la frecuencia (es decir, S(w, rr, 9r, <a )) que se puede aproximar mediante varias transformaciones de tiempo-frecuencia, como la transformada de Fourier discreta (DFT), la transformada de coseno discreta (DCT), o una transformada de ondículas. Otros ejemplos de conjuntos jerárquicos incluyen conjuntos de coeficientes de transformada de ondículas y otros conjuntos de coeficientes de funciones de base de multirresolución.
Los datos de video a menudo se muestran junto con los datos de audio sincronizados correspondientes, y los datos de audio generalmente se generan para coincidir con la perspectiva de los datos de video. Por ejemplo, durante tramas de video que muestran una perspectiva de primer plano de dos personas hablando en un restaurante, la conversación de las dos personas puede ser fuerte y clara en relación con cualquier ruido de fondo en el restaurante, como las conversaciones de otros comensales, ruido de la cocina, música de fondo, etc. Durante las tramas de video que muestran una perspectiva más distante de las dos personas hablando, la conversación de las dos personas puede ser menos ruidosa y menos clara en relación con los ruidos de fondo, cuyas fuentes pueden estar ahora en la trama de video.
Tradicionalmente, las decisiones sobre la perspectiva (por ejemplo, acercarse y alejarse de una escena o desplazarse por una escena) las toma un productor de contenido con un consumidor final del contenido que tiene poca o ninguna capacidad para alterar la perspectiva elegida por el productor de contenido original. Sin embargo, cada vez es más común que los usuarios tengan cierto nivel de control sobre la perspectiva que ven cuando ven un video. Como ejemplo, durante una transmisión de fútbol, un usuario puede recibir un video que muestra una gran sección del campo, pero puede tener la capacidad de acercarse a un jugador o grupo de jugadores específico. Esta divulgación introduce técnicas para adaptar la percepción de una reproducción de audio de manera que coincida con un cambio en la percepción del video correspondiente. Por ejemplo, si mientras mira un partido de fútbol, un usuario se acerca al quarterback, el audio también puede adaptarse para producir un efecto de audio al acercarse al quarterback.
La percepción del usuario sobre el video también puede cambiar según el tamaño de la pantalla que se utiliza para reproducir el video. Por ejemplo, cuando mira una película en una tableta de 10 pulgadas, la pantalla completa puede estar dentro de la visión central del espectador, mientras que cuando mira la misma película en un televisor de 100 pulgadas, las partes externas de la pantalla solo pueden estar dentro de la visión periférica del espectador. Esta divulgación introduce técnicas para adaptar la percepción de una reproducción de audio basada en el tamaño de una pantalla que se utiliza para los datos de video correspondientes.
El flujo de bits de audio MPEG-H 3D contiene nuevos campos de bits para señalizar información de un tamaño de pantalla de referencia utilizado durante el proceso de producción de contenido. Un decodificador de audio compatible con MPEG-H 3D, cuyos ejemplos se describirán en esta divulgación, también se puede configurar para determinar un tamaño de pantalla real de la configuración de pantalla que se utiliza junto con el video correspondiente al audio que se decodifica. En consecuencia, de acuerdo con las técnicas de esta divulgación, un decodificador de audio puede adaptar el campo de sonido HOA, en función del tamaño de la pantalla de referencia y el tamaño real de la pantalla, de modo que el contenido de audio relacionado con la pantalla se perciba desde la misma ubicación que se muestra en el video.
Esta divulgación describe técnicas sobre cómo los campos de sonido HOA pueden ajustarse para garantizar la alineación espacial de los elementos acústicos con el componente visual en un escenario de reproducción de audio/video mixto. Las técnicas de esta divulgación pueden utilizarse para ayudar a crear una experiencia de audio/video coherente para contenido exclusivo de HOA o para contenido con una combinación de objetos de audio y HOA donde actualmente solo se ajustan los objetos de audio relacionados con la pantalla.
La figura 1 es un diagrama que ilustra las funciones de base armónicas esféricas desde el orden cero (n= 0) hasta el cuarto orden (n = 4). Como puede verse, para cada orden, hay una expansión de los sub-órdenes m que se muestran pero no se señalan explícitamente en el ejemplo de la FIG. 1, con fines de facilidad de ilustración.
Los SHC A J f(k) pueden ser adquiridos físicamente (por ejemplo, registrados) con varias configuraciones de formaciones de micrófonos o, de forma alternativa, se pueden obtener de descripciones basadas en canales o basadas en objetos del campo sonoro. Los SHC representan el audio basado en la escena, donde los SHC pueden ser introducidos en un codificador de audio para obtener SHC codificados que pueden fomentar una transmisión o un almacenamiento más eficaz. Por ejemplo, puede utilizarse una representación de cuarto orden que implique coeficientes (1+4)2 (25 y, por lo tanto, de cuarto orden).
Como se ha señalado anteriormente, los SHC pueden obtenerse de una grabación con micrófono utilizando una formación de micrófonos. En el artículo de Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., Vol. 53, n.° 11, noviembre de 2005, págs. 1004 a 1025, se describen varios ejemplos de cómo se pueden obtener los SHC a partir de formaciones de micrófonos.
Para ¡lustrar cómo los SHC se pueden obtener a partir de una descripción basada en objetos, considérese la siguiente
ecuación. Los A™(k) coeficientes para el campo sonoro correspondiente a un objeto de audio individual pueden expresarse como:
Figure imgf000006_0001
objeto. Conocer la energía fuente del objeto g(w) como función de la frecuencia (por ejemplo, utilizando técnicas de análisis de tiempo-frecuencia, tales como realizar una transformación rápida de Fourier en el flujo de PCM) nos permite
convertir cada objeto de PCM y la ubicación correspondiente en el SHC A™(k) . Además, se puede mostrar (dado
A™ ( le )
que lo anterior es una descomposición lineal y ortogonal) que los coeficientes para cada objeto son aditivos.
De esta manera, una multitud de objetos de PCM puede ser representada por los A m n ( ' ' k ,v 3 z coeficientes (por ejemplo, como una suma de los vectores de coeficientes para los objetos individuales). Esencialmente, los coeficientes contienen información sobre el campo sonoro (la presión como una función de las coordenadas tridimensionales), y lo anterior representa la transformación de los objetos individuales a una representación del campo sonoro global en las proximidades del punto de observación {r, 9r, y }. Las cifras restantes se describen a continuación en el contexto de la codificación de audio basada en objetos y basada en SHC.
La figura 2 es un diagrama que ilustra un sistema 10 que puede realizar diversos aspectos de las técnicas descritas en esta divulgación. Como se muestra en el ejemplo de la figura 2, el sistema 10 incluye un dispositivo creador de contenido 12 y un dispositivo de consumo de contenido 14. Aunque se describen en el contexto del dispositivo creador de contenido 12 y del dispositivo de consumo de contenido 14, las técnicas pueden implementarse en cualquier contexto en el que los SHC (que también pueden denominarse coeficientes HOA), o cualquier otra representación jerárquica de un campo sonoro, se codifican para formar un flujo de bits representativo de los datos de audio. Además, el dispositivo creador de contenido 12 puede representar cualquier forma de dispositivo informático capaz de implementar las técnicas descritas en esta divulgación, incluido un equipo manual (o teléfono celular), un ordenador tipo tableta, un teléfono inteligente o un ordenador de escritorio, para proporcionar unos pocos ejemplos. Del mismo modo, el dispositivo de consumo de contenido 14 puede representar cualquier forma de dispositivo informático capaz de implementar las técnicas descritas en esta divulgación, incluido un equipo manual (o teléfono celular), un ordenador tipo tableta, un teléfono inteligente, un descodificador o un ordenador de escritorio, para proporcionar unos pocos ejemplos.
El dispositivo creador de contenido 12 puede ser operado por un estudio de cine u otra entidad que pueda generar contenido de audio multicanal para el consumo por parte de los operadores de los dispositivos consumidores de contenido, tales como el dispositivo de consumo de contenido 14. En algunos ejemplos, el dispositivo creador de contenido 12 puede ser operado por un usuario individual que quisiera generar una señal de audio con coeficientes de compresión HOA 11 y también incluir en la señal de audio, uno o más parámetros del campo de visión (FOV). A menudo, este creador de contenido genera contenido de audio junto con el contenido de vídeo. Los parámetros del FOV pueden, por ejemplo, describir un tamaño de pantalla de referencia para el contenido de video. El dispositivo de consumo de contenido 14 puede ser operado por un individuo. El dispositivo de consumo de contenido 14 puede incluir un sistema de reproducción de audio 16, que puede referirse a cualquier forma de sistema de reproducción de audio capaz de renderizar los SHC para su reproducción como contenido de audio multicanal.
El dispositivo creador de contenido 12 incluye un sistema de edición de audio 18. El dispositivo creador de contenido 12 obtiene grabaciones en vivo 7 en diversos formatos (incluso directamente como coeficientes HOA) y objetos de audio 9, que el dispositivo creador de contenido 12 puede editar utilizando el sistema de edición de audio 18. Un micrófono 5 puede capturar las grabaciones en vivo 7. El creador de contenido puede, durante el proceso de edición, renderizar los coeficientes HOA 11 de los objetos de audio 9, escuchando las señales de los altavoces renderizadas en un intento de identificar varios aspectos del campo sonoro que requieran una edición adicional. El dispositivo creador de contenido 12 puede entonces editar los coeficientes HOA 11 (potencialmente, de manera indirecta mediante la manipulación de diferentes objetos entre los objetos de audio 9 a partir de los cuales pueden obtenerse los coeficientes HOA originales, de la manera descrita anteriormente) y los parámetros de FOV 13. El dispositivo creador de contenido 12 puede emplear el sistema de edición de audio 18 para generar los coeficientes HOA 11 y los parámetros de FOV 13. El sistema de edición de audio 18 representa cualquier sistema capaz de editar datos de audio y emitir los datos de audio como uno o más coeficientes armónicos esféricos originales.
Cuando se completa el proceso de edición, el dispositivo creador de contenido 12 puede generar un flujo de bits de audio 21 basándose en los coeficientes HOA 11. Es decir, el dispositivo creador de contenido 12 incluye un dispositivo de codificación de audio 20 que representa un dispositivo configurado para codificar o comprimir de otro modo los coeficientes HOA 11 de acuerdo con diversos aspectos de las técnicas descritas en esta divulgación para generar el flujo de bits de audio 21. El dispositivo de codificación de audio 20 puede incluir, en el flujo de bits 21, valores para señalizar los parámetros del FOV 13. El dispositivo de codificación de audio 20 puede generar el flujo de bits de audio 21 para su transmisión, por ejemplo, a través de un canal de transmisión, que puede ser un canal cableado o inalámbrico, un dispositivo de almacenamiento de datos o algo similar. El flujo de bits de audio 21 puede representar una versión codificada de los coeficientes HOA 11 y puede incluir un flujo de bits primario y otro flujo de bits lateral, que se puede denominar información de canal lateral. En algunos ejemplos, el dispositivo de codificación de audio 20 puede incluir parámetros del FOV 13 en el canal lateral, mientras que en otros ejemplos, el dispositivo de codificación de audio 20 puede incluir parámetros del FOV 13 en otro lugar. En otros ejemplos, el dispositivo de codificación de audio 20 puede no codificar los parámetros del FOV 13, y en cambio, el sistema de reproducción de audio 16 puede asignar valores predeterminados a los parámetros del FOV 13'.
Mientras se muestra en la figura 2 como transmitido directamente al dispositivo de consumo de contenido 14, el dispositivo creador de contenido 12 puede emitir el flujo de bits de audio 21 a un dispositivo intermedio situado entre el dispositivo creador de contenido 12 y el dispositivo de consumo de contenido 14. Este dispositivo intermedio puede almacenar el flujo de bits de audio 21 para su posterior suministro al dispositivo de consumo de contenido 14, que puede solicitar el flujo de bits. El dispositivo intermedio puede comprender un servidor de archivos, un servidor de la Red, un ordenador de escritorio, un ordenador portátil, un ordenador de tipo tableta, un teléfono móvil, un teléfono inteligente o cualquier otro dispositivo que pueda almacenar el flujo de bits de audio 21 para su posterior recuperación mediante un descodificador de audio. Este dispositivo intermedio puede residir en una red de suministro de contenido, capaz de transmitir en flujo continuo el flujo de bits de audio 21 (y posiblemente junto con la transmisión de un correspondiente flujo de bits de datos de vídeo) a los abonados, tales como el dispositivo de consumo de contenido 14 que solicita el flujo de bits de audio 21.
De forma alternativa, el dispositivo creador de contenido 12 puede almacenar el flujo de bits de audio 21 en un medio de almacenamiento, tal como un disco compacto, un disco de vídeo digital, un disco de vídeo de alta definición u otros medios de almacenamiento, la mayoría de los cuales pueden ser leídos por un ordenador y, por lo tanto, pueden denominarse medios de almacenamiento legibles por ordenador o medios de almacenamiento no transitorio legibles por ordenador. En este contexto, el canal de transmisión puede referirse a aquellos canales por los cuales se transmiten contenidos almacenados en los medios (y pueden incluir tiendas minoristas y otros mecanismos de suministro basados en almacenes). En cualquier caso, las técnicas de la presente divulgación, por lo tanto, no se deben limitar, en este sentido, al ejemplo de la FIG. 2.
El dispositivo creador de contenido 12 puede configurarse además para generar y codificar datos de video 23, y el dispositivo de consumo de contenido 14 puede configurarse para recibir y decodificar datos de video 23. Los datos de video 23 pueden asociarse y transmitirse con el flujo de bits de audio 21. A este respecto, el dispositivo creador de contenido 12 y el dispositivo de consumo de contenido 14 pueden incluir hardware y software adicionales que no se muestran explícitamente en la FIG. 2. El dispositivo creador de contenido 12 puede, por ejemplo, incluir cámaras para adquirir datos de video, un sistema de edición de video para editar los datos de video y un codificador de video para codificar los datos de video, y el dispositivo de consumo de contenido 14 también puede incluir un decodificador de video y un renderizador de video.
Como se muestra adicionalmente en el ejemplo de la figura 2, el dispositivo de consumo de contenido 14 incluye el sistema de reproducción de audio 16. El sistema de reproducción de audio 16 puede representar cualquier sistema de reproducción de audio que pueda reproducir datos de audio multicanal. El sistema de reproducción de audio 16 puede incluir un número de diferentes renderizadores 22. Los renderizadores 22 pueden proporcionar, cada uno, una forma diferente de renderizado, donde las diferentes formas de renderizado pueden incluir una o más de las diversas formas de realizar la exploración de amplitud de base vectorial (VBAP) y/o una o más de las diversas formas de realizar la síntesis del campo sonoro. Como se usa en el presente documento, "A y/o B" significa "A o B" o ambos "A y B".
El sistema de reproducción de audio 16 puede incluir además un dispositivo de descodificación de audio 24. El dispositivo de descodificación de audio 24 puede representar un dispositivo configurado para descodificar los coeficientes HOA 11' y parámetros de FOV 13' a partir del flujo de bits de audio 21, donde los coeficientes HOA 11' pueden ser similares a los coeficientes HOA 11, pero difieren debido a las operaciones con pérdidas (por ejemplo, cuantificación) y/o a la transmisión mediante el canal de transmisión. Los parámetros de FOV 13, por el contrario, pueden codificarse sin pérdidas. El sistema de reproducción de audio 16 puede, después de descodificar el flujo de bits de audio 21, obtener los coeficientes HOA 11' y renderiza los coeficientes HOA 11' en las señales de salida de los altavoces 25. Como se explicará con más detalle a continuación, la manera en que el sistema de reproducción de audio 16 renderiza los coeficientes HOA 11' se modifica en función de los parámetros de FOV 13' junto con los parámetros de FOV de la pantalla 15. Las señales de los altavoces 25 pueden accionar uno o más altavoces (que no se muestran en el ejemplo de la figura 2, con fines de facilidad de ilustración).
Para seleccionar el renderizador apropiado o, en algunos casos, generar un renderizador apropiado, el sistema de reproducción de audio 16 puede obtener información de los altavoces 13 indicativa de un número de altavoces y/o una geometría espacial de los altavoces. En algunos casos, el sistema de reproducción de audio 16 puede obtener la información de los altavoces 13 usando un micrófono de referencia y accionando los altavoces de tal manera como para determinar dinámicamente la información de los altavoces 13. En otros casos, o conjuntamente con la determinación dinámica de la información de los altavoces 13, el sistema de reproducción de audio 16 puede inducir a un usuario a interactuar con el sistema de reproducción de audio 16 e introducir la información de los altavoces 13.
El sistema de reproducción de audio 16 puede entonces seleccionar uno de los renderizadores de audio 22 basándose en la información de los altavoces 13. En algunos casos, el sistema de reproducción de audio 16 puede, cuando ninguno de los renderizadores de audio 22 está dentro de ninguna medición de similitud de umbral (en cuanto a geometría de altavoces) con la geometría de los altavoces especificada en la información de los altavoces 13, generar uno de los renderizadores de audio 22 basándose en la información de los altavoces 13. El sistema de reproducción de audio 16 puede, en algunos casos, generar uno de los renderizadores de audio 22 basándose en la información de los altavoces 13 sin intentar primero seleccionar un reproductor existente entre los renderizadores de audio 22. Uno o más altavoces 3 pueden a continuación reproducir las señales de altavoz renderizadas 25.
Como se muestra en la FIG. 2, el dispositivo de consumo de contenido 14 también tiene un dispositivo de visualización asociado, la pantalla 15. En el ejemplo de la FIG. 2, la pantalla 15 se muestra como incorporada en el dispositivo de consumo de contenido 14; sin embargo, en otros ejemplos, la pantalla 15 puede ser externa al dispositivo de consumo de contenido 14. Como se explicará con más detalle a continuación, la pantalla 15 tiene uno o más parámetros de FOV asociados que están separados de los parámetros de FOV 13'. Los parámetros de FOV 13' representan parámetros asociados con una pantalla de referencia en el momento de la creación de contenido, mientras que los parámetros de FOV de la pantalla 15 son parámetros de FOV de una ventana de visualización utilizada para la reproducción. El sistema de reproducción de audio 16 se modifica o genera uno del renderizador de audio 22 basado en los parámetros de FOV 13' y los parámetros de FOV asociados con la pantalla 15.
La FIG. 3 es un diagrama de bloques que ilustra, con mayor detalle, un ejemplo del dispositivo de codificación de audio 20 mostrado en el ejemplo de la FIG. 2 que puede realizar diversos aspectos de las técnicas descritas en esta divulgación. El dispositivo de codificación de audio 20 incluye una unidad de análisis de contenido 26, una unidad de descomposición basada en vectores 27 y una unidad de descomposición basada en la dirección 28. Aunque se describe brevemente a continuación, en la Publicación de Solicitud de Patente Internacional No. WO 2014/194099, titulada "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD [INTERPOLACIÓN PARA REPRESENTACIONES DESCOMPUESTAS DE UN CAMPO DE SONIDO]", presentada el 29 de mayo de 2014, está disponible más información sobre el dispositivo de codificación de audio 20 y los diversos aspectos de compresión o codificación de otro modo de los coeficientes HOA.
La unidad de análisis de contenido 26 representa una unidad configurada para analizar el contenido de los coeficientes HOA 11 y que identifica si los coeficientes HOA 11 representan contenido generado a partir de una grabación en directo o un objeto de audio. La unidad de análisis de contenido 26 puede determinar si los coeficientes HOA 11 se generaron a partir de una grabación de un campo sonoro real o de un objeto de audio artificial. En algunos casos, cuando los coeficientes HOA en tramas 11 se generaron a partir de una grabación, la unidad de análisis de contenido 26 pasa los coeficientes HOA 11 a la unidad de descomposición basada en vectores 27. En algunos casos, cuando los coeficientes HOA por tramas 11 se generaron a partir de un objeto de audio sintético, la unidad de análisis de contenido 26 pasa los coeficientes HOA 11 a la unidad de descomposición basada en la dirección 28. La unidad de descomposición basada en la dirección 28 puede representar una unidad configurada para realizar una síntesis basada en la dirección de los coeficientes HOA 11 para generar un flujo de bits 21 basado en la dirección.
Como se muestra en el ejemplo de la FIG. 3, la unidad de descomposición basada en vectores 27 puede incluir una unidad de transformada invertible lineal (LIT) 30, una unidad de cálculo de parámetros 32, una unidad de reordenamiento 34, una unidad de selección del primer plano 36, una unidad de compensación de energía 38, una unidad codificadora de audio psicoacústico 40, una unidad de generación de flujo de bits 42, una unidad de análisis del campo sonoro 44, una unidad de reducción de coeficientes 46, una unidad de selección de fondo (BG) 48, una unidad de interpolación espacio-temporal 50 y una unidad de cuantificación 52.
La unidad de transformada invertible lineal (LIT) 30 recibe los coeficientes HOA 11 en forma de canales HOA, siendo cada canal representativo de un bloque o trama de un coeficiente asociado a un orden dado, suborden de las funciones de base esférica (que se puede indicar como HOA[^], donde k puede indicar la trama o bloque actual de muestras). La matriz de coeficientes HOA 11 puede tener las dimensiones D: M x (N+1)2.
La unidad de LIT 30 puede representar una unidad configurada para realizar una forma de análisis denominada descomposición en valores singulares. Aunque se describen con respecto a la SVD, las técnicas descritas en esta divulgación pueden realizarse con respecto a cualquier transformación o descomposición similar que proporcione conjuntos de salida de energía compactada y no correlacionada linealmente. También, la referencia a "conjuntos" en esta divulgación está en general concebida para referirse a conjuntos no nulos, a menos que se indique específicamente lo contrario y no se pretende referir a la definición matemática clásica de conjuntos que incluye el denominado "conjunto vacío". Una transformación alternativa puede comprender un análisis de componentes principales, que se denomina a menudo "PCA". Dependiendo del contexto, un PCA se puede denominar mediante un número de nombres diferentes, tales como la transformada de Karhunen-Loeve discreta, la transformada de Hotelling, la descomposición ortogonal propia (POD) y la descomposición en autovalores (EVD), para nombrar unos pocos ejemplos. Las propiedades de dichas operaciones que conducen a la meta subyacente de compresión de datos de audio son la "compactación energética" y la "descorrelación" de los datos de audio multicanal.
En cualquier caso, suponiendo que la unidad de LIT 30 realiza una descomposición en valores singulares (que, de nuevo, puede denominarse "SVD") con fines de ejemplo, la unidad de LIT 30 puede transformar los coeficientes HOA 11 en dos o más conjuntos de coeficientes HOA transformados. Estos "conjuntos" de coeficientes HOA transformados pueden incluir vectores de coeficientes HOA transformados. En el ejemplo de la FIG. 3, la unidad de LIT 30 puede realizar la SVD con respecto a los coeficientes HOA 11 para generar una matriz llamada V, una matriz S y una matriz U. La SVD, en álgebra lineal, puede representar una factorización de una matriz X real o compleja de y por z (donde X puede representar datos de audio multicanal, tales como los coeficientes HOA 11) de la siguiente forma:
Figure imgf000009_0001
U puede representar una matriz unitaria real o compleja de y por y, donde las y columnas de U se conocen como los vectores singulares izquierdos de los datos de audio multicanal. S puede representar una matriz diagonal rectangular de y por z con números reales no negativos en la diagonal, donde los valores diagonales de S se conocen comúnmente como los valores singulares de los datos de audio multicanal. V* (que puede indicar una traspuesta conjugada de V) puede representar una matriz unitaria real o compleja de z por z, donde las z columnas de V * son conocidas como vectores singulares derechos de los datos de audio multicanal.
En algunos ejemplos, la matriz V* en la expresión matemática de SVD mencionada anteriormente se indica como la traspuesta conjugada de la matriz V para reflejar que la SVD se puede aplicar a matrices que comprenden números complejos. Cuando se aplica a matrices que comprenden solo números reales, la conjugada compleja de la matriz V (o, en otras palabras, la matriz V*) puede considerarse como la traspuesta de la matriz V. A continuación se supone, con fines de facilitar la ilustración, que los coeficientes HOA 11 comprenden números reales, con el resultado de que la matriz V se emite mediante la s Vd , en lugar de la matriz V*. Además, aunque se indica como la matriz V en esta divulgación, la referencia a la matriz V debería entenderse como referencia a la traspuesta de la matriz V cuando corresponda. Aunque se supone que es la matriz V, las técnicas pueden aplicarse de manera similar a los coeficientes HOA 11 que tienen coeficientes complejos, donde la salida de la SVD es la matriz V*. Por consiguiente, las técnicas no deberían estar limitadas a este respecto para proporcionar solamente la aplicación de la SVD para generar una matriz V, sino que pueden incluir la aplicación de la SVD a coeficientes HOA 11 que tengan componentes complejos para generar una matriz V*.
De esta manera, la unidad de LIT 30 puede realizar una SVD con respecto a los coeficientes HOA 11 para emitir vectores US[k] 33 (que pueden representar una versión combinada de los vectores S y los vectores U) que tienen dimensiones D: M x (N+1)2, y vectores V[k] 35 con dimensiones D: (N+1)2 x (N+1)2 Los elementos vectoriales individuales en la matriz US[k] también pueden denominarse Xps(k), mientras que los vectores individuales de la matriz V[k] también pueden denominarse v(k).
Un análisis de las matrices U, S y V puede revelar que las matrices llevan o representan características espaciales y temporales del campo sonoro subyacente representado anteriormente por X. Cada uno de los N vectores en U (de muestras de longitud M) puede representar señales de audio normalizadas separadas como una función del tiempo (para el período de tiempo representado por las M muestras), que son ortogonales entre sí y que han sido desacopladas de cualquier característica espacial (que también puede denominarse información direccional). Las características espaciales, que representan la forma y la posición espacial (r, theta, phi), pueden representarse en cambio por vectores /-®sim°s individuales, vw(k), en la matriz V (cada uno de longitud (N+1)2). Los elementos individuales de cada uno de los vectores v(/)(k) pueden representar un coeficiente HOA que describe la forma (incluida la anchura) y la posición del campo sonoro para un objeto de audio asociado. Tanto los vectores de la matriz U como los de la matriz V se normalizan de tal manera que sus energías de media cuadrática son iguales a la unidad. La energía de las señales de audio en U está de este modo representada por los elementos diagonales en S. Multiplicar U por S para formar US[k] (con los elementos vectoriales individuales Xps(k)), representa de este modo la señal de audio con energías. La capacidad de la descomposición SVD para desacoplar las señales de tiempo de audio (en U), sus energías (en S) y sus características espaciales (en V) puede dar soporte a varios aspectos de las técnicas descritas en esta divulgación. Además, el modelo de síntesis de los coeficientes HOA[k] subyacentes, X, por una multiplicación de vectores de US[k] y V[k] da lugar al término "descomposición basada en vectores" que se utiliza en todo este documento.
Aunque se describe como realizada directamente con respecto a los coeficientes HOA 11, la unidad de LIT 30 puede aplicar la trasformada invertible lineal a los derivados de los coeficientes HOA 11. Por ejemplo, la unidad de LIT 30 puede aplicar una SVD con respecto a una matriz de densidad espectral de potencia obtenida a partir de los coeficientes HOA 11. Mediante el modo de realización de la SVD con respecto a la densidad espectral de potencia (PSD) de los coeficientes HOA, en lugar de los coeficientes en sí, la unidad de LIT 30 puede reducir potencialmente la complejidad de cálculo para realizar la SVD en términos de uno o más ciclos de procesador y espacio de almacenamiento, mientras se consigue la misma eficacia en la codificación de la fuente de audio como si la SVD se aplicara directamente a los coeficientes HOA.
La unidad de cálculo de parámetros 32 representa una unidad configurada para calcular varios parámetros, tales como un parámetro de correlación (R), parámetros de propiedades direccionales (9, y, r) y una propiedad de energía (e). Cada uno de los parámetros para la trama actual puede indicarse como R[k], 9[k], y[k], i{k] y e[k]. La unidad de cálculo de parámetros 32 puede realizar un análisis de energía y/o correlación (o lo que se denomina correlación cruzada) con respecto a los vectores US[k] 33 para identificar los parámetros. La unidad de cálculo de parámetros 32 también puede determinar los parámetros para la trama anterior, donde los parámetros de tramas anteriores pueden indicarse como R[k-1], 9[k-1], y[k-1], r[k-1] y e[k-1], basándose en la trama anterior del vector US[k-1] y los vectores V[k-1]. La unidad de cálculo de parámetros 32 puede emitir los parámetros actuales 37 y los parámetros anteriores 39 para reordenar la unidad 34.
Los parámetros calculados por la unidad de cálculo de parámetros 32 pueden ser utilizados por la unidad de reordenación 34 para reordenar los objetos de audio para representar su evaluación natural o su continuidad en el tiempo. La unidad de reordenación 34 puede comparar cada uno de los parámetros 37 de los primeros vectores US[k] 33, por orden, con cada uno de los parámetros 39 para los segundos vectores US[k-1] 33. La unidad de reordenación 34 puede reordenar (utilizando como ejemplo un algoritmo húngaro) los diversos vectores dentro de la matriz US[k] 33 y la matriz V[k] 35 basándose en los parámetros actuales 37 y los parámetros anteriores 39 para emitir una matriz US[k] reordenada 33' (que se puede indicar matemáticamente como US[k]) y una matriz V[k] reordenada 35' (que se puede indicar matemáticamente como V[k]) a una unidad de selección de sonido de primer plano 36 (o sonido predominante - PS) ("unidad de selección del primer plano 36") y una unidad de compensación de energía 38.
La unidad de análisis del campo sonoro 44 puede representar una unidad configurada para realizar un análisis de campo sonoro con respecto a los coeficientes HOA 11 para alcanzar potencialmente una velocidad de bits deseada 41. La unidad de análisis del campo sonoro 44 puede, basándose en este análisis y/o en una velocidad de bits deseada recibida 41, determinar el número total de instanciaciones del codificador psicoacústico (que puede ser una función del número total de canales ambientales o de fondo (BGtot) y el número de canales de primer plano o, en otras palabras, canales predominantes. El número total de instanciaciones del codificador psicoacústico se puede indicar como numCanalesTransporteHOA.
La unidad de análisis del campo sonoro 44 también puede determinar, de nuevo para alcanzar potencialmente la velocidad de bits objetivo 41, el número total de canales de primer plano (nFG) 45, el orden mínimo del campo sonoro de fondo (o, en otras palabras, ambiente) (Nbg o, de forma alternativa, MinOrdenHOAAmb), el número correspondiente de canales reales representativos del orden mínimo del campo sonoro de fondo (nBGa = (MinOrdenHOAAmb 1)2), y los índices (i) de los canales adicionales de BG HOA a enviar (que pueden indicarse colectivamente como información de canal de fondo 43 en el ejemplo de la FIG. 3). La información de canal de fondo 42 también puede denominarse información de canal ambiental 43. Cada uno de los canales que queda de numCanalesTransporteHOA- nBGa puede ser un "canal de fondo/ambiental adicional", un "canal predominante basado en un vector activo", una "señal predominante basada en dirección activa" o estar "completamente inactivo". En un aspecto, los tipos de canales se pueden indicar como un elemento sintáctico ("TipoCanal") con dos bits (por ejemplo, 00: señal basada en dirección; 01: señal predominante basada en vectores; 10: señal ambiental adicional; 11: señal inactiva). El número total de señales de fondo o de ambiente, nBGa, puede estar dado por (MinOrdenHOAAmb 1)2 el número de veces que el índice 10 (en el ejemplo anterior) aparece como un tipo de canal en el flujo de bits para esa trama.
La unidad de análisis del campo sonoro 44 puede seleccionar el número de canales de fondo (o, en otras palabras, de ambiente) y el número de canales de primer plano (o, en otras palabras, predominantes) basándose en la velocidad de bits deseada 41, seleccionando más canales de fondo y/o de primer plano cuando la velocidad de bits deseada 41 es relativamente mayor (por ejemplo, cuando la velocidad de bits deseada 41 es igual o mayor que 512 Kbps). En un aspecto, el numCanalesTransporteHOA se puede fijar en 8 mientras que el MinOrdenHOAAmb puede ser fijado en 1 en la sección de cabecera del flujo de bits. En este escenario, en cada trama se pueden dedicar cuatro canales para representar la parte de fondo o de ambiente del campo sonoro, mientras que los otros 4 canales pueden variar, de trama a trama, según el tipo de canal, por ejemplo, usado como un canal de fondo/ambiente adicional o un canal de primer plano/predominante. Las señales de primer plano/predominantes pueden ser una entre señales basadas en vectores o en la dirección, como se ha descrito anteriormente.
En algunos casos, el número total de señales predominantes basadas en vectores para una trama puede estar dado por el número de veces que el índice TipoCanal es 01 en el flujo de bits de dicha trama. En el aspecto anterior, para cada canal de fondo/ambiental adicional (por ejemplo, correspondiente a un TipoCanal de 10), información correspondiente de cuál de los posibles coeficientes h Oa (más allá de los cuatro primeros) se puede representar en ese canal. La información, para contenido HOA de cuarto orden, puede ser un índice para indicar los coeficientes HOA 5 a 25. Los cuatro primeros coeficientes HOA ambientales 1 a 4 pueden enviarse todo el tiempo cuando minOrdenHOAAmb se fija en 1, por lo tanto, el dispositivo de codificación de audio solo puede necesitar indicar uno de los coeficientes HOA ambientales adicionales que tengan un índice de 5 a 25. Esta información, por tanto, podría ser enviada utilizando un elemento sintáctico de 5 bits (para el contenido de 4° orden), que puede denominarse "IndCoefAmbCodif". En cualquier caso, la unidad de análisis del campo sonoro 44 emite la información de canal de fondo 43 y los coeficientes HOA 11 a la unidad de selección de fondo (BG) 36, la información de canal de fondo 43 a la unidad de reducción de coeficientes 46 y a la unidad de generación del flujo de bits 42, y el nFG 45 a una unidad de selección de primer plano 36.
La unidad de selección de fondo 48 puede representar una unidad configurada para determinar los coeficientes HOA de fondo o ambientales 47 basándose en la información de canal de fondo (por ejemplo, el campo sonoro de fondo (Nbg) y el número (nBGa) y los índices (i) de los canales HOA de BG adicionales a enviar). Por ejemplo, cuando Nbg es igual a uno, la unidad de selección de fondo 48 puede seleccionar los coeficientes HOA 11 para cada muestra de la trama de audio que tenga un orden igual o inferior a uno. La unidad de selección de fondo 48 puede, en este ejemplo, seleccionar entonces los coeficientes HOA 11 que tengan un índice identificado por uno de los índices (i) como coeficientes adicionales HOA de BG, donde el nBGa se proporciona a la unidad de generación del flujo de bits de audio 42 para que se especifique en el flujo de bits 21 para permitir al dispositivo de descodificación de audio, tal como el dispositivo de descodificación de audio 24, que se muestra en el ejemplo de las FIGs. 2 y 4, analizar los coeficientes HOA de fondo 47 del flujo de bits de audio 21. La unidad de selección de fondo 48 puede emitir entonces los coeficientes HOA ambientales 47 a la unidad de compensación de energía 38. Los coeficientes HOA ambientales 47 pueden tener dimensiones D: M x [(A/bg+1)2 nBGa], Los coeficientes HOA ambientales 47 también pueden denominarse "coeficientes HOA ambientales 47", donde cada uno de los coeficientes HOA ambientales 47 corresponde a un canal HOA ambiental independiente 47, a codificar por la unidad codificadora de audio psicoacústica 40.
La unidad de selección del primer plano 36 puede representar una unidad configurada para seleccionar la matriz US[k] reordenada 33' y la matriz V[k] reordenada 35', que representan componentes de primer plano, o distintos, del campo sonoro basándose en nFG 45 (que pueden representar uno o más índices que identifican los vectores de primer plano). La unidad de selección del primer plano 36 puede emitir nFG señales 49 (que se pueden indicar como una US[/c]i,
nFG 49, FG1... nfG[/r] reordenada 49,
Figure imgf000011_0001
psicoacústica 40, en donde las nFG señales 49 pueden tener dimensiones D: M x nFG y cada una representa objetos de monoaudio. La unidad de selección del primer plano 36 también pueden emitir la matriz V[k] reordenada 35' (o v(i-nFG)(k) 35'), correspondiente a los componentes de primer plano del campo sonoro, a la unidad de interpolación espacio-temporal 50, donde un subconjunto de la matriz V[k] reordenada 35', correspondiente a los componentes de primer plano, se puede indicar como la matriz V[/<] de primer plano 51 * (que se puede indicar matemáticamente como v i,..,nFGW) que tiene dimensiones D: (A/+1 )2 x nFG.
La unidad de compensación de energía 38 puede representar una unidad configurada para realizar compensación de energía con respecto a los coeficientes HOA ambientales 47, para compensar la pérdida de energía debida a la eliminación de varios de los canales HOA por la unidad de selección de fondo 48. La unidad de compensación de energía 38 puede realizar un análisis energético con respecto a una o más entre la matriz US[*] reordenada 33', la matriz V[*] reordenada 35', las nFG señales 49, los vectores V[*] de primer plano 51* y los coeficientes HOA ambientales 47, y luego realizar una compensación de energía basándose en el análisis de energía para generar los coeficientes HOA ambientales compensados en energía 47'. La unidad de compensación de energía 38 puede emitir los coeficientes HOA ambientales compensados en energía 47' a la unidad codificadora de audio psicoacústica 40.
La unidad de interpolación espacio-temporal 50 puede representar una unidad configurada para recibir los vectores V[*] de primer plano 51* para la k'ésima trama y los vectores V[*-1] de primer plano 51 *-1 para la trama anterior (de ahí la notación k-1) y realizar una interpolación espacio-temporal para generar los vectores V[*] de primer plano interpolados. La unidad de interpolación espacio-temporal 50 puede recombinar las nFG señales 49 con los vectores V[*] de primer plano 51* para recuperar los coeficientes HOA de primer plano reordenados. La unidad de interpolación espacio-temporal 50 puede entonces dividir los coeficientes HOA de primer plano reordenados por los vectores V[*] interpolados para generar nFG señales interpoladas 49'. La unidad de interpolación espacio-temporal 50 también puede emitir los vectores V[k] de primer plano 51* que se usaron para generar los vectores V[*] de primer plano interpolados, de modo que un dispositivo de descodificación de audio, tal como el dispositivo de descodificación de audio 24, pueda generar los vectores V[*] de primer plano interpolados y recuperar así los vectores V[*] de primer plano 51*. Los vectores V[*] de primer plano 51* utilizados para generar los vectores V[*] de primer plano interpolados se indican como los vectores V[*] de primer plano restantes 53. Con el fin de asegurar que los mismos V[k] y V[k-1] se usen en el codificador y el descodificador (para crear los vectores interpolados V[k]) se pueden usar versiones cuantificadas/descuantificadas de los vectores en el codificador y el descodificador. La unidad de interpolación espacio-temporal 50 puede emitir las nFG señales interpoladas 49' a la unidad codificadora de audio psicoacústica 46 y los vectores V[*] de primer plano interpolados 51* a la unidad de reducción de coeficientes 46.
La unidad de reducción de coeficientes 46 puede representar una unidad configurada para realizar una reducción de coeficientes con respecto a los restantes vectores V[*] de primer plano 53, basándose en la información de canal de fondo 43 para emitir los vectores de primer plano reducidos V[*] 55 a la unidad de cuantificación 52. Los vectores V[*] de primer plano reducidos 55 pueden tener dimensiones D: [(N+1)2-(Nbg+1)2- BGtot] x nFG. La unidad de reducción de coeficientes 46 puede, a este respecto, representar una unidad configurada para reducir el número de coeficientes de los restantes vectores V[*] de primer plano 53. En otras palabras, la unidad de reducción de coeficientes 46 puede representar una unidad configurada para eliminar los coeficientes en los vectores V[*] de primer plano (que forman los restantes vectores V[*] de primer plano 53) que tienen poca o ninguna información direccional. En algunos ejemplos, los coeficientes de los vectores V[*] distintos o, en otras palabras, de primer plano que corresponden a funciones de base de primer orden y de orden cero (que pueden indicarse como Nbg) proporcionan poca información direccional y por lo tanto pueden ser eliminados de los vectores V de primer plano (mediante un proceso que se puede denominar "reducción de coeficientes"). En este ejemplo, se puede proporcionar mayor flexibilidad para identificar no solo los coeficientes que corresponden a Nbg, sino para identificar canales HOA adicionales (que pueden indicarse con la variable TotalOfAddAmbHOAChan) a partir del conjunto de [(Nbg +1)2+1, (N+1)2].
La unidad de cuantificación 52 puede representar una unidad configurada para realizar cualquier forma de cuantificación para comprimir los vectores V[*] de primer plano reducidos 55 y generar vectores de primer plano V[*] codificados 57, emitiendo los vectores de primer plano codificados V[*] 57 a la unidad de generación del flujo de bits 42. En funcionamiento, la unidad de cuantificación 52 puede representar una unidad configurada para comprimir un componente espacial del campo sonoro, es decir, uno o más de los vectores V[*] de primer plano reducidos 55 en este ejemplo. La unidad de cuantificación 52 puede realizar cualquiera de los siguientes 12 modos de cuantificación, como se indica mediante un elemento sintáctico de modo de cuantificación denominado "NbitsQ":
Valor de NbitsQ Tipo de modo de cuantificación
0-3: Reservado
4: Cuantificación de vector
5: Cuantificación escalar sin codificación Huffman
6: Cuantificación escalar de 6 bits con codificación Huffman
7: Cuantificación escalar de 7 bits con codificación Huffman
8: Cuantificación escalar de 8 bits con codificación Huffman
16: Cuantificación escalar de 16 bits con codificación Huffman
La unidad de cuantificación 52 también puede realizar versiones predichas de cualquiera de los tipos anteriores de modos de cuantificación, donde se determina una diferencia entre un elemento de (o una ponderación cuando se realiza la cuantificación del vector) del vector V de una trama previa y el elemento (o ponderación cuando se realiza la cuantificación del vector) del vector V de una trama actual. La unidad de cuantificación 52 puede entonces cuantificar la diferencia entre los elementos o ponderaciones de la trama actual y de la trama anterior en lugar del valor del elemento del vector V de la propia trama actual.
La unidad de cuantificación 52 puede realizar múltiples formas de cuantificación con respecto a cada uno de los vectores V[^] de primer plano reducidos 55 para obtener múltiples versiones codificadas de los vectores V[^] de primer plano reducidos 55. La unidad de cuantificación 52 puede seleccionar una de las versiones codificadas de los vectores V[^] de primer plano reducidos 55 como el vector V[^] de primer plano codificado 57. La unidad de cuantificación 52 puede, en otras palabras, seleccionar uno del vector V cuantificado en vector no predicho, el vector V cuantificado en vector predicho, el vector V cuantificado escalar sin codificación Huffman y el vector V cuantificado escalar con codificación Huffman para usar como el vector V cuantificado conmutado de salida basado en cualquier combinación de los criterios analizados en esta divulgación. En algunos ejemplos, la unidad de cuantificación 52 puede seleccionar un modo de cuantificación de un conjunto de modos de cuantificación que incluye un modo de cuantificación vectorial y uno o más modos de cuantificación escalar, y cuantificar un vector V de entrada basándose en (o de acuerdo con) el modo seleccionado. La unidad de cuantificación 52 puede proporcionar entonces uno del vector V cuantificado por vector no predicho (por ejemplo, en términos de valores de ponderación o bits indicativos del mismo), el vector V cuantificado por vector predicho (por ejemplo, en términos de valores de error o bits indicativos del mismo), el vector V cuantificado escalar sin codificación Huffman y el vector V cuantificado escalar con codificación Huffman a la unidad de generación de flujo de bits 52 como los vectores V[^] de primer plano codificados 57. La unidad de cuantificación 52 también puede proporcionar los elementos sintácticos indicativos del modo de cuantificación (por ejemplo, el elemento sintáctico NbitsQ) y cualquier otro elemento sintáctico utilizado para descuantificar o reconstruir de otro modo el vector V.
La unidad codificadora de audio psicoacústica 40 incluida dentro del dispositivo de codificación de audio 20 puede representar múltiples instancias de un codificador de audio psicoacústico, cada una de las cuales se utiliza para codificar un objeto de audio diferente o canal HOA de cada uno de los coeficientes HOA ambientales compensados en energía 47' y las nFG señales interpoladas 49' para generar los coeficientes HOA ambientales codificados 59 y las nFG señales codificadas 61. La unidad codificadora de audio psicoacústica 40 puede emitir los coeficientes HOA ambientales codificados 59 y las nFG señales codificadas 61 a la unidad de generación de flujo de bits 42.
La unidad de generación del flujo de bits 42 incluida dentro del dispositivo de codificación de audio 20 representa una unidad que formatea datos para adaptarse a un formato conocido (que puede referirse a un formato conocido por un dispositivo de descodificación), generando de este modo el flujo de bits basado en vectores 21. El flujo de bits de audio 21 puede, en otras palabras, representar datos de audio codificados, que se han codificado de la manera descrita anteriormente. La unidad de generación de flujo de bits 42 puede representar un multiplexor en algunos ejemplos, que puede recibir los vectores codificados V[^] de primer plano 57, los coeficientes HOA ambientales codificados 59, las nFG señales codificadas 61 y la información de canal de fondo 43. La unidad de generación del flujo de bits 42 puede generar entonces un flujo de bits de audio 21 basado en los vectores codificados V[^] de primer plano 57, los coeficientes HOA ambientales codificados 59, las nFG señales codificadas 61 y la información de canal de fondo 43. De esta forma, la unidad de generación de flujo de bits 42 puede especificar de ese modo los vectores 57 en el flujo de bits de audio 21 para obtener el flujo de bits de audio 21. El flujo de bits de audio 21 puede incluir un flujo de bits primario o principal y uno o más flujos de bits de canal lateral.
Aunque no se muestra en el ejemplo de la FIG. 3, el dispositivo de codificación de audio 20 también puede incluir una unidad de salida de flujo de bits que conmuta la salida del flujo de bits desde el dispositivo de codificación de audio 20 (por ejemplo, entre el flujo de bits basado en la direccionalidad 21 y el flujo de bits basado en vectores 21), basándose en si una trama actual va a ser codificada usando la síntesis basada en la dirección o la síntesis basada en vectores. La unidad de salida de flujo de bits puede realizar la conmutación basándose en el elemento sintáctico emitido por la unidad de análisis de contenido 26, indicando si se realizó una síntesis basada en la dirección (como resultado de detectar que los coeficientes HOA 11 se generaron a partir de un objeto de audio sintético) o si se realizó una síntesis basada en vectores (como resultado de detectar que se registraron los coeficientes HOA). La unidad de salida del flujo de bits puede especificar la sintaxis de cabecera correcta para indicar la conmutación o codificación actual utilizada para la trama actual, junto con la respectiva de los flujos de bits 21.
Además, como se ha indicado anteriormente, la unidad de análisis del campo sonoro 44 puede identificar BGtot coeficientes HOA ambientales 47, que pueden cambiar de trama a trama (aunque a veces b Gtot puede permanecer constante o igual entre dos o más tramas adyacentes (en el tiempo)). El cambio en BGtot puede dar como resultado cambios en los coeficientes expresados en los vectores V[^] de primer plano reducidos 55. El cambio en BGtot puede dar como resultado los coeficientes HOA de fondo (que también pueden denominarse "coeficientes HOA ambientales") que cambian de trama a trama (aunque, de nuevo, a veces b Gtot puede permanecer constante o igual entre dos o más tramas adyacentes (en el tiempo)). Los cambios a menudo dan como resultado un cambio de energía para los aspectos del campo de sonido representados por la adición o eliminación de los coeficientes HOA ambientales adicionales y la correspondiente eliminación de coeficientes de, o adición de coeficientes a, los vectores V[^] de primer plano reducidos 55.
Como resultado, la unidad de análisis del campo sonoro 44 puede determinar además cuándo los coeficientes HOA ambientales cambian de trama a trama, y generar un indicador u otro elemento sintáctico indicativo del cambio para el coeficiente HOA ambiental, en términos de ser utilizado para representar los componentes ambientales del campo sonoro (donde el cambio también puede denominarse una "transición" del coeficiente HOA ambiental o una "transición" del coeficiente HOA ambiental). En particular, la unidad de reducción de coeficientes 46 puede generar el indicador (que puede indicarse como un indicador TransiciónCoefAmb o un indicador TransiciónIndCoefAmb), proporcionando el indicador a la unidad de generación de flujo de bits 42 para que el indicador pueda incluirse en el flujo de bits de audio 21 (posiblemente como parte de la información de canal lateral).
La unidad de reducción de coeficientes 46 puede, además de especificar el indicador de transición de coeficientes ambientales, también modificar cómo se generan los vectores V[^] de primer plano reducidos 55. En un ejemplo, al determinar que uno de los coeficientes HOA ambientales está en transición durante la trama actual, la unidad de reducción de coeficientes 46 puede especificar un coeficiente vectorial (que también puede denominarse "elemento vectorial" o "elemento") para cada uno de los vectores V de los vectores V[^] de primer plano reducidos 55, que corresponde al coeficiente HOA ambiental en transición. De nuevo, el coeficiente HOA ambiental en transición puede agregar o eliminar del número total BGtot de coeficientes de fondo. Por lo tanto, el cambio resultante en el número total de coeficientes de fondo afecta si el coeficiente HOA ambiental se incluye o no en el flujo de bits, y si el elemento correspondiente de los vectores V se incluye para los vectores V especificados en el flujo de bits en los modos de configuración segundo y tercero, descritos anteriormente. Se proporciona más información sobre cómo la unidad de reducción de coeficientes 46 puede especificar los vectores V[^] de primer plano reducidos 55 para superar los cambios en la energía en la Solicitud de Ee .UU. con No. de serie 14/594.533, titulada "TRANSITIONiNG OF Am BIENT HIGHER_ORDER AMBISONIC COEFFICIENTS [TRANSICIÓN DE COEFICIENTES AMBISÓNICOS DE ORDEN SUPERIOR AMBIENTALES]", presentada 12 de enero de 2015.
La FIG. 4 es un diagrama de bloques que ilustra el dispositivo de descodificación de audio 24 de la FIG. 2 con mayor detalle. Como se muestra en el ejemplo de la figura 4, el dispositivo de descodificación de audio 24 puede incluir una unidad de extracción 72, una unidad de reconstrucción basada en la direccionalidad 90 y una unidad de reconstrucción basada en vectores 92. Aunque se describe a continuación, en la publicación de solicitud de patente internacional número WO 2014/194099, titulada "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD [INTERPOLACIÓN PARA RENDERIZACIONES DESCOMPUESTAS DE UN CAMPO DE SONIDO]" presentada el 29 de mayo de 2014, está disponible más información sobre el dispositivo de descodificación de audio 24 y los diversos aspectos de descompresión, o descodificación de otro modo, de los coeficientes HOA.
La unidad de extracción 72 representa una unidad configurada para recibir el flujo de bits de audio 21 y extraer las diversas versiones codificadas (por ejemplo, una versión codificada basada en la dirección o una versión codificada basada en vector) de los coeficientes h Oa 11. La unidad de extracción 72 puede determinar a partir del elemento sintáctico indicado anteriormente indicativo de si los coeficientes HOA 11 se codificaron a través de varias versiones basadas en la dirección o en vectores. Cuando se realizó una codificación basada en la dirección, la unidad de extracción 72 puede extraer la versión basada en la dirección de los coeficientes HOA 11 y los elementos sintácticos asociados a la versión codificada (que se indica como información basada en dirección 91 en el ejemplo de la FIG. 4), pasando la información basada en dirección 91 a la unidad de reconstrucción basada en dirección 90. La unidad de reconstrucción basada en la dirección 90 puede representar una unidad configurada para reconstruir los coeficientes HOA en forma de coeficientes HOA 11', basándose en la información basada en la dirección 91. El flujo de bits y la disposición de elementos sintácticos dentro del flujo de bits se describen a continuación con más detalle con respecto al ejemplo de las FIGS. 7A-7J.
Cuando el elemento sintáctico indica que los coeficientes HOA 11 se codificaron usando una síntesis basada en vectores, la unidad de extracción 72 puede extraer los vectores codificados V[^] de primer plano 57 (que pueden incluir ponderaciones codificadas 57 y/o índices 63 o vectores V con cuantificación escalar), los coeficientes HOA ambientales codificados 59 y los correspondientes objetos de audio 61 (que también pueden denominarse las señales codificadas de nFG 61). Cada uno de los objetos de audio 61 corresponden cada uno a uno de los vectores 57. La unidad de extracción 72 puede pasar los vectores codificados V[k] de primer plano 57 a la unidad de reconstrucción de vector V 74 y los coeficientes HOA ambientales codificados 59, junto con las nFG señales codificadas 61, a la unidad de descodificación psicoacústica 80.
La unidad de reconstrucción de vector V 74 puede representar una unidad configurada para reconstruir los vectores V a partir de los vectores V[^] de primer plano codificados 57. La unidad de reconstrucción de vector V 74 puede funcionar de una manera recíproca a la de la unidad de cuantificación 52.
La unidad de descodificación psicoacústica 80 puede funcionar de una manera recíproca a la unidad de codificador de audio psicoacústica 40 mostrada en el ejemplo de la FIG. 3 para descodificar los coeficientes HOA ambientales codificados 59 y las señales codificadas de nFG 61 y generar de ese modo coeficientes HOA ambientales compensados de energía 47' y las señales nFG interpoladas 49' (que también pueden denominarse objetos de audio nFG interpolados 49'). La unidad de descodificación psicoacústica 80 puede pasar los coeficientes HOA ambientales compensados en energía 47' a la unidad de fundido 770 y las nFG señales 49' a la unidad de formulación de primer plano 78.
La unidad de interpolación espacio-temporal 76 puede funcionar de una manera similar a la descrita anteriormente con respecto a la unidad de interpolación espacio-temporal 50. La unidad de interpolación espacio-temporal 76 puede recibir los vectores V[k] reducidos de primer plano 55 k y realizar la interpolación espacio-temporal con respecto a los vectores V[k] de primer plano 55k y los vectores V[k-1] reducidos de primer plano 55k-1 para generar vectores V[k] de primer plano interpolados 55k". La unidad de interpolación espacio-temporal 76 puede reenviar los vectores V[k] de primer plano interpolados 55k" a la unidad de fundido 770.
La unidad de extracción 72 también puede emitir una señal 757 indicativa de cuándo uno de los coeficientes HOA ambientales está en transición hacia la unidad de fundido 770, que puede entonces determinar cuál de los SHCbg 47' (donde los SHCbg 47' también se pueden indicar como "canales HOA ambientales 47'" o "coeficientes HOA ambientales 47'") y los elementos de los vectores V[k] de primer plano interpolados 55k" han de incorporarse o eliminarse. En algunos ejemplos, la unidad de fundido 770 puede funcionar opuesta con respecto a cada uno de los coeficientes HOA ambientales 47' y los elementos de los vectores V[k] de primer plano interpolados 55k". Es decir, la unidad de fundido 770 puede realizar un fundido de entrada o un fundido de salida o tanto un fundido de entrada como un fundido de salida, con respecto al correspondiente de los coeficientes HOA ambientales 47', mientras realiza un fundido de entrada o un fundido de salida, o tanto un fundido de entrada como un fundido de salida, con respecto al correspondiente de los elementos de los vectores V[k] de primer plano interpolados 55k". La unidad de fundido 770 puede emitir coeficientes HOA ambientales ajustados 47'' a la unidad de formulación de coeficientes HOA 82 y los vectores V[k] de primer plano ajustados 55k"' a la unidad de formulación de primer plano 78. A este respecto, la unidad de fundido 770 representa una unidad configurada para realizar una operación de fundido con respecto a diversos aspectos de los coeficientes HOA o sus derivados, por ejemplo, en forma de los coeficientes HOA ambientales 47' y los elementos de los vectores V[k] interpolados de primer plano 55k".
La unidad de formulación del primer plano 78 puede representar una unidad configurada para realizar la multiplicación matricial con respecto a los vectores V[k] de primer plano ajustados 55k" y las nFG señales interpoladas 49' para generar los coeficientes HOA de primer plano 65. A este respecto, la unidad de formulación de primer plano 78 puede combinar los objetos de audio 49' (que es otra manera mediante la cual denotar las Nfg señales interpoladas 49') con los vectores 55k"' para reconstruir el primer plano o, en otras palabras, los aspectos predominantes de los coeficientes HOA 11'. La unidad de formulación de primer plano 78 puede realizar una multiplicación matricial de las nFG señales interpoladas 49' por los vectores V[k] de primer plano ajustados 55k"'.
La unidad de formulación de coeficientes HOA 82 puede representar una unidad configurada para combinar los coeficientes HOA de primer plano 65 a los coeficientes HOA ambientales ajustados 47'' para obtener los coeficientes HOA 11'. La notación principal refleja que los coeficientes HOA 11' pueden ser similares pero no iguales a los coeficientes HOA 11. Las diferencias entre los coeficientes HOA 11 y 11' pueden ser el resultado de pérdidas debidas a la transmisión por un medio de transmisión con pérdidas, cuantificación u otras operaciones con pérdidas.
La FIG. 5 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de codificación de audio, tal como el dispositivo de codificación de audio 20 mostrado en el ejemplo de la FIG. 3, en el modo de realización de diversos aspectos de las técnicas de síntesis basadas en vectores descritas en esta divulgación. Inicialmente, el dispositivo de codificación de audio 20 recibe los coeficientes HOA 11 (106). El dispositivo de codificación de audio 20 puede invocar la unidad de LIT 30, que puede aplicar una LIT con respecto a los coeficientes HOA para emitir los coeficientes HOA transformados (por ejemplo, en el caso de la SVD, los coeficientes HOA transformados pueden comprender los vectores US[k] 33 y los vectores V[k] 35) (107).
El dispositivo de codificación de audio 20 puede invocar, a continuación, la unidad de cálculo de parámetros 32 para realizar el análisis descrito anteriormente con respecto a cualquier combinación de los vectores US[k] 33, los vectores US[k-1] 33, los vectores V[k] y/o V[k-1] 35, para identificar varios parámetros de la manera descrita anteriormente. Es decir, la unidad de cálculo de parámetros 32 puede determinar al menos un parámetro basándose en un análisis de los coeficientes HOA transformados 33/35 (108).
El dispositivo de codificación de audio 20 puede entonces invocar la unidad de reordenación 34, que puede reordenar los coeficientes HOA transformados (que, de nuevo en el contexto de la SVD, puede referirse a los vectores US[k] 33 y a los vectores V[k] 35) basándose en el parámetro para generar los coeficientes HOA transformados reordenados 33'/35' (o, en otras palabras, los vectores US[k] 33' y los vectores V[k] 35'), como se ha descrito anteriormente (109). El dispositivo de codificación de audio 20 puede, durante cualquiera de las operaciones anteriores u operaciones subsiguientes, invocar también la unidad de análisis del campo sonoro 44. La unidad de análisis del campo sonoro 44 puede, como se ha descrito anteriormente, realizar un análisis de campo sonoro con respecto a los coeficientes HOA 11 y/o los coeficientes HOA transformados 33/35 para determinar el número total de canales de primer plano (nFG) 45, el orden del campo sonoro de fondo (Nbg) y el número (nBGa) y los índices (i) de canales adicionales HOA de BG a enviar (que pueden indicarse colectivamente como información de canal de fondo 43 en el ejemplo de la FIG. 3) (109).
El dispositivo de codificación de audio 20 también puede invocar la unidad de selección de fondo 48. La unidad de selección de fondo 48 puede determinar los coeficientes HOA de fondo o ambientales 47 basándose en la información de canal de fondo 43 (110). El dispositivo de codificación de audio 20 puede invocar adicionalmente la unidad de selección del primer plano 36, la cual puede seleccionar los vectores US[k] reordenados 33' y los vectores V[k] reordenados 35' que representan componentes de primer plano o distintos del campo sonoro basándose en nFG 45 (que puede representar uno o más índices que identifican los vectores de primer plano) (112).
El dispositivo de codificación de audio 20 puede invocar la unidad de compensación de energía 38. La unidad de compensación de energía 38 puede realizar compensación de energía con respecto a los coeficientes HOA ambientales 47 para compensar la pérdida de energía debida a la eliminación de varios de los coeficientes HOA por la unidad de selección de fondo 48 (114) y generar así coeficientes HOA ambientales compensados en energía 47'.
El dispositivo de codificación de audio 20 puede también invocar la unidad de interpolación espacio- temporal 50. La unidad de interpolación espacio-temporal 50 puede realizar interpolación espacio-temporal con respecto a los coeficientes HOA transformados reordenados 33'/35' para obtener las señales de primer plano interpoladas 49' (que también pueden denominarse como "nFG señales interpoladas 49'") y la información direccional restante de primer plano 53 (que también se puede denominar como vectores "V[k] 53") (116). El dispositivo de codificación de audio 20 puede entonces invocar la unidad de reducción de coeficientes 46. La unidad de reducción de coeficientes 46 puede realizar una reducción de los coeficientes con respecto a los restantes vectores V[k] de primer plano 53, basándose en la información de canal de fondo 43, para obtener información direccional reducida de primer plano 55 (que también se puede denominar como vectores V[k] de primer plano reducidos 55) (118).
El dispositivo de codificación de audio 20 puede entonces invocar la unidad de cuantificación 52 para comprimir, de la manera descrita anteriormente, los vectores V[k] de primer plano reducidos 55 y generar los vectores V[k] de primer plano codificados 57 (120).
El dispositivo de codificación de audio 20 también puede invocar la unidad codificadora de audio psicoacústica 40. La unidad codificadora de audio psicoacústica 40 puede codificar psicoacústicamente cada vector de los coeficientes HOA ambientales compensados en energía 47' y las nFG señales interpoladas 49' para generar coeficientes HOA ambientales codificados 59 y nFG señales codificadas 61. El dispositivo de codificación de audio puede entonces invocar la unidad de generación de flujo de bits 42. La unidad de generación del flujo de bits 42 puede generar el flujo de bits de audio 21 basándose en la información direccional codificada de primer plano 57, los coeficientes HOA ambientales codificados 59, las nFG señales codificadas 61 y la información de canal de fondo 43.
La FIG. 6 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de descodificación de audio, como el dispositivo de descodificación de audio 24 mostrado en la FIG. 4, en el modo de realización de varios aspectos de las técnicas descritas en esta divulgación. Inicialmente, el dispositivo descodificador de audio 24 puede recibir el flujo de bits de audio 21 (130). Al recibir el flujo de bits, el dispositivo de descodificación de audio 24 puede invocar la unidad de extracción 72. Suponiendo, a efectos de análisis, que el flujo de bits de audio 21 indica que se va a realizar una reconstrucción basada en vectores, la unidad de extracción 72 puede analizar sintácticamente el flujo de bits para recuperar la información indicada anteriormente, pasando la información a la unidad de reconstrucción basada en vectores 92.
En otras palabras, la unidad de extracción 72 puede extraer la información direccional codificada de primer plano 57 (que, de nuevo, también se puede denominar como los vectores V[k] de primer plano codificados 57), los coeficientes HOA ambientales codificados 59 y las señales de primer plano codificadas (que también se pueden denominar como las nFG señales de primer plano codificadas 59 o los objetos de audio de primer plano codificados 59) del flujo de bits de audio 21, de la manera descrita anteriormente (132).
El dispositivo de descodificación de audio 24 puede invocar adicionalmente la unidad de descuantificación 74. La unidad de descuantificación 74 puede descodificar por entropía y descuantificar la información direccional codificada de primer plano 57 para obtener información direccional reducida de primer plano 55k (136). El dispositivo de descodificación de audio 24 también puede invocar la unidad de descodificación psicoacústica 80. La unidad de codificación psicoacústica 80 puede descodificar los coeficientes HOA ambientales codificados 59 y las señales de primer plano codificadas 61 para obtener coeficientes HOA ambientales compensados en energía 47' y las señales de primer plano interpoladas 49' (138). La unidad de descodificación psicoacústica 80 puede pasar los coeficientes HOA ambientales compensados en energía 47' a la unidad de fundido 770 y las nFG señales 49' a la unidad de formulación de primer plano 78.
El dispositivo de descodificación de audio 24 puede invocar a continuación la unidad de interpolación espacio-temporal 76. La unidad de interpolación espacio-temporal 76 puede recibir la información direccional de primer plano reordenada 55 k ' y realizar la interpolación espacio-temporal con respecto a la información direccional reducida de primer plano 55k/55k-1 para generar la información direccional de primer plano interpolada 55k" (140). La unidad de interpolación espacio-temporal 76 puede reenviar los vectores V[k] de primer plano interpolados 55k" a la unidad de fundido 770.
El dispositivo de descodificación de audio 24 puede invocar la unidad de fundido 770. La unidad de fundido 770 puede recibir u obtener de otro modo elementos sintácticos (por ejemplo, desde la unidad de extracción 72) indicativos de cuándo los coeficientes HOA ambientales compensados en energía 47' están en transición (por ejemplo, el elemento sintáctico AmbCoeffTransition). La unidad de fundido 770 puede, basándose en los elementos sintácticos de transición y la información de estado de transición mantenida, realizar un fundido de entrada o un fundido de salida en los coeficientes HOA ambientales compensados en energía 47', emitiendo los coeficientes HOA ambientales ajustados 47'' a la unidad de formulación de coeficientes HOA 82. La unidad de fundido 770 puede también, basándose en los elementos sintácticos y la información de estado de transición mantenida, realizar un fundido final o un fundido inicial de los correspondientes uno o más elementos de los vectores de primer plano interpolados V[k] 55k", emitiendo los vectores V[k] ajustados de primer plano 55 k " a la unidad de formulación de primer plano 78 (142).
El dispositivo de descodificación de audio 24 puede invocar la unidad de formulación del primer plano 78. La unidad de formulación del primer plano 78 puede realizar la multiplicación matricial de las nFG señales 49' por la información direccional de primer plano ajustada 55 k '" para obtener los coeficientes HOA de primer plano 65 (144). El dispositivo de descodificación de audio 24 también puede invocar la unidad de formulación de coeficientes HOA 82. La unidad de formulación de coeficientes HOA 82 puede añadir los coeficientes HOA de primer plano 65 a los coeficientes HOA ambientales ajustados 47'' para obtener los coeficientes HOA 11' (146).
De acuerdo con las técnicas de esta divulgación, el dispositivo de decodificación de audio 24 puede calcular una matriz de efecto HOA basada en el tamaño de pantalla de producción y reproducción. La matriz de efectos de HOA puede multiplicarse con una matriz de renderización de HOA dada R para crear la matriz de renderización de HOA relacionada con la pantalla. En algunas implementaciones, la adaptación de la matriz de renderización HOA puede realizarse fuera de línea durante, por ejemplo, una fase de inicialización del dispositivo de decodificación de audio 24, de modo que la complejidad del tiempo de ejecución no aumenta.
Una técnica propuesta de esta divulgación utiliza 900 puntos de muestreo igualmente espaciados en una esfera (O900) cada uno de los puntos de muestreo definidos con la dirección (0, 0) como se describe en el Anexo F.9 de ISO/IEC DIS 23008-3, Tecnología de la información - Codificación de alta eficiencia y entrega de medios en entornos heterogéneos - Parte 3: audio 3D (en adelante "DIS 23008"). Basado en esas direcciones, el dispositivo de decodificación de audio puede calcular una matriz de modo V 900 como se describe en el Anexo F.1,5 de DIS 23008. Las direcciones de esos 900 puntos de muestreo se modifican a través de la función de asignación y la matriz de modo modificado V m900 se calcula en consecuencia. Para evitar una falta de coincidencia entre los objetos de audio relacionados con la pantalla y el contenido HOA relacionado con la pantalla, se utilizan las mismas funciones de asignación ya descritas en la Cláusula 18.3 del DIS 23008. La matriz de efectos F se calcula entonces como:
Figure imgf000017_0001
La matriz de renderización relacionada con la pantalla se calcula como:
D = RF. (2)
Es posible precalcular y almacenar la matriz pinv (V9007) para evitar cualquier repetición de esta etapa de procesamiento. El número total de operaciones restantes en la ecuación (1) y (2) para generar D es (900+M)*(N+1)4. Para una matriz de renderización con el orden N = 4 y M = 22 altavoces, la complejidad es de aproximadamente 0,58 MOPS ponderados.
Ahora se describirá un primer ejemplo de las técnicas de adaptación basadas en pantalla de esta descripción con referencias a las FIGS. 7-11. La FlG. 7A muestra un ejemplo de una función de asignación que puede usarse para asignar un ángulo de acimut para una pantalla de referencia a un ángulo de acimut para una ventana de visualización. La FIG. 7B muestra un ejemplo de función de asignación que puede usarse para asignar un ángulo de elevación para una pantalla de referencia a un ángulo de elevación para una ventana de visualización. En el ejemplo de las FIGS. 7A y 7B, los ángulos de la pantalla de referencia son de 29 a -29 grados de acimut y de 16,3 a -16,3 grados de elevación, y los ángulos de la ventana de visualización son de 58 a -58 grados de acimut y 32,6 a -32,6 grados de elevación. Así, en el ejemplo de las FIGS. 7A y 7B, la ventana de visualización es dos veces más grande que la pantalla de referencia.
Como se usa en esta divulgación, una ventana de visualización puede referirse a toda o parte de una pantalla utilizada para reproducir video. Al reproducir una película en modo de pantalla completa en un televisor, tableta, teléfono u otro dispositivo similar, la ventana de visualización puede corresponder a la pantalla completa del dispositivo. Sin embargo, en otros ejemplos, una ventana de visualización puede corresponder a menos de la pantalla completa del dispositivo. Por ejemplo, un dispositivo que reproduce cuatro eventos deportivos simultáneamente puede incluir cuatro ventanas de visualización distintas en una pantalla, o un dispositivo puede tener una única ventana de visualización para reproducir video y usar el área de pantalla restante para mostrar otro contenido. El campo de visión de una ventana de visualización puede determinarse en función de parámetros tales como un tamaño físico de la ventana de visualización y/o una distancia (ya sea medida o supuesta) desde la ventana de visualización a una ubicación de visualización. El campo de visión puede, por ejemplo, describirse mediante ángulos de acimut y ángulos de elevación.
Como se usa en esta divulgación, una pantalla de referencia se refiere a un campo de visión correspondiente al campo de sonido de los datos de audio HOA. Por ejemplo, los datos de audio HOA pueden generarse o capturarse con respecto a un determinado campo de visión (es decir, una pantalla de referencia) pero pueden reproducirse con respecto a un campo de visión diferente (por ejemplo, el campo de visión de una ventana de visualización). Como se explica en esta divulgación, la pantalla de referencia proporciona una referencia mediante la cual un decodificador de audio puede adaptar los datos de audio HOA para la reproducción local en una pantalla que difiere en tamaño, ubicación o alguna otra característica de la pantalla de referencia. Para fines de explicación, ciertas técnicas en esta divulgación pueden describirse con referencia a una pantalla de producción y pantalla de reproducción. Debe entenderse que estas mismas técnicas son aplicables a pantallas de referencia y ventanas de visualización.
La FIG. 8 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el primer ejemplo. En la FIG. 8, los puntos corresponden a un destino de asignación, mientras que las líneas que van a los puntos corresponden a senderos de asignación. El rectángulo con líneas discontinuas corresponde a un tamaño de pantalla de referencia, y el rectángulo con líneas continuas corresponde a un tamaño de ventana de visualización.
La FIG. 61 muestra un ejemplo de cómo el efecto relacionado con la pantalla puede causar un aumento del orden HOA del contenido. En el ejemplo de la FIG. 61, la matriz de efecto se calcula para crear 49 coeficientes HOA (6° orden) de un material de entrada de 3er orden. Sin embargo, también se pueden lograr resultados satisfactorios si la matriz se calcula como matriz cuadrada con (N+1)2 x (N+1)2 elementos.
La FIG. 10 muestra un ejemplo de cómo la matriz de efectos se puede renderizar previamente y aplicar a la matriz de renderización de altavoces, por lo que no requiere ningún cálculo adicional en tiempo de ejecución.
La FIG. 11 muestra un ejemplo de cómo si la matriz de efectos puede dar como resultado un contenido de orden superior (por ejemplo, 6° orden), se puede multiplicar una matriz de renderización en este orden para calcular previamente la matriz de renderización final en el orden original (aquí 3er orden).
Ahora se describirá un segundo ejemplo de las técnicas de adaptación basadas en pantalla de esta descripción con referencias a las FIGS. 12-13. La FIG. 12A muestra un ejemplo de una función de asignación que puede usarse para asignar un ángulo de acimut para una pantalla de referencia a un ángulo de acimut para una ventana de visualización. La FIG. 12B muestra un ejemplo de función de asignación que puede usarse para asignar un ángulo de elevación para una pantalla de referencia a un ángulo de elevación para una ventana de visualización. En el ejemplo de las FIGS. 12A y 12B, los ángulos de la pantalla de referencia son de 29 a -29 grados de acimut y de 16,3 a -16,3 grados de elevación, y los ángulos de la ventana de visualización son de 29 a -29 grados de acimut y 32,6 a -32,6 grados de elevación. Así, en el ejemplo de las FIGS. 12A y 12B, la ventana de visualización es dos veces más alta pero con el mismo ancho que la pantalla de referencia. La FIG. 12C muestra una matriz de efecto HOA calculada para el segundo ejemplo.
La FIG. 13 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el segundo ejemplo. En la FIG.
13, los puntos corresponden a un destino de asignación, mientras que las líneas que van a los puntos corresponden a senderos de asignación. El rectángulo con líneas discontinuas corresponde a un tamaño de pantalla de referencia, y el rectángulo con líneas continuas corresponde a un tamaño de ventana de visualización.
Ahora se describirá un tercer ejemplo de las técnicas de adaptación basadas en pantalla de esta descripción con referencias a las FIGS. 14-15. La FIG. 14A muestra un ejemplo de una función de asignación que puede usarse para asignar un ángulo de acimut para una pantalla de referencia a un ángulo de acimut para una ventana de visualización. La FIG. 14B muestra un ejemplo de función de asignación que puede usarse para asignar un ángulo de elevación para una pantalla de referencia a un ángulo de elevación para una ventana de visualización. En el ejemplo de las FIGS. 14A y 14B, los ángulos de la pantalla de referencia son de 29 a -29 grados de acimut y de 16,3 a -16,3 grados de elevación, y los ángulos de la ventana de visualización son de 58 a -58 grados de acimut y 16,3 a -16,3 grados de elevación. Así, en el ejemplo de las FIGS. 14A y 14B, la ventana de visualización es dos veces más ancha que la pantalla de referencia pero con la misma altura que la pantalla de referencia. La FIG. 14C muestra una matriz de efecto HOA calculada para el tercer ejemplo.
La FIG. 15 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el tercer ejemplo. En la FIG. 15, los puntos corresponden a un destino de asignación, mientras que las líneas que van a los puntos corresponden a senderos de asignación. El rectángulo con líneas discontinuas corresponde a un tamaño de pantalla de referencia, y el rectángulo con líneas continuas corresponde a un tamaño de ventana de visualización.
Ahora se describirá un cuarto ejemplo de las técnicas de adaptación basadas en pantalla de esta descripción con referencias a las FIGS. 16-17. La FIG. 16A muestra un ejemplo de una función de asignación que puede usarse para asignar un ángulo de acimut para una pantalla de referencia a un ángulo de acimut para una ventana de visualización. La FIG. 16B muestra un ejemplo de función de asignación que puede usarse para asignar un ángulo de elevación para una pantalla de referencia a un ángulo de elevación para una ventana de visualización. En el ejemplo de las FIGS. 16A y 16B, los ángulos de la pantalla de referencia son de 29 a -29 grados de acimut y de 16,3 a -16,3 grados de elevación, y los ángulos de la ventana de visualización son de 49 a -9 grados de acimut y 16,3 a -16,3 grados de elevación. Así, en el ejemplo de las FIGS. 14A y 14B, la ventana de visualización es dos veces más ancha que la pantalla de referencia pero con la misma altura que la pantalla de referencia. La FIG. 16C muestra una matriz de efecto HOA calculada para el tercer ejemplo.
La FIG. 17 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el cuarto ejemplo. En la FIG. 17, los puntos corresponden a un destino de asignación, mientras que las líneas que van a los puntos corresponden a senderos de asignación. El rectángulo con líneas discontinuas corresponde a un tamaño de pantalla de referencia, y el rectángulo con líneas continuas corresponde a un tamaño de ventana de visualización.
Ahora se describirá un quinto ejemplo de las técnicas de adaptación basadas en pantalla de esta descripción con referencias a las FIGS. 18-19. La FIG. 18A muestra un ejemplo de una función de asignación que puede usarse para asignar un ángulo de acimut para una pantalla de referencia a un ángulo de acimut para una ventana de visualización. La FIG. 18B muestra un ejemplo de función de asignación que puede usarse para asignar un ángulo de elevación para una pantalla de referencia a un ángulo de elevación para una ventana de visualización. En el ejemplo de las FIGS. 18A y 18B, los ángulos de la pantalla de referencia son de 29 a -29 grados de acimut y de 16,3 a -16,3 grados de elevación, y los ángulos de la ventana de visualización son de 49 a -9 grados de acimut y 16,3 a -16,3 grados de elevación. Así, en el ejemplo de las FIGS. 18A y 18B, la ventana de visualización se desplaza en la ubicación acimutal relativa a la pantalla de referencia. La FIG. 18C muestra una matriz de efecto HOA calculada para el quinto ejemplo.
La FIG. 19 muestra un campo vectorial para un efecto de expansión deseado relacionado con la pantalla del campo de sonido como efecto de la pantalla de referencia y la ventana de visualización para el cuarto ejemplo. En la FIG. 19, los puntos corresponden a un destino de asignación, mientras que las líneas que van a los puntos corresponden a senderos de asignación. El rectángulo con líneas discontinuas corresponde a un tamaño de pantalla de referencia, y el rectángulo con líneas continuas corresponde a un tamaño de ventana de visualización.
Las FIGS. 20A-20C son diagramas de bloques que ilustran otro ejemplo de un dispositivo de codificación de audio 900 que puede implementar diversos aspectos de las técnicas para la adaptación basada en pantalla descritas en esta divulgación. Por simplicidad, no todos los aspectos del dispositivo de decodificación de audio 900 se muestran en las FIGS. 20A-20C. Se contempla que las características y funciones del dispositivo de decodificación de audio 900 pueden implementarse junto con las características y funciones de otros dispositivos de decodificación de audio descritos en esta descripción, tales como el dispositivo de decodificación de audio 24 descrito anteriormente con respecto a las FIGS. 2 y 4.
El dispositivo de decodificación de audio 900 incluye el decodificador USAC 902, el decodificador HOA 904, el generador de matriz de renderización local 906, el decodificador de matriz de renderización señalizada/local 908 y el renderizador de altavoz 910. El dispositivo de decodificación de audio 900 recibe un flujo de bits codificado (por ejemplo, un flujo de bits de audio m Pe G-H 3D). El decodificador USAC 902 y el decodificador HOA 904 decodifican el flujo de bits usando las técnicas de decodificación de audio USAC y HOA descritas anteriormente. El generador de matriz de renderización local 906 genera una o más matrices de renderización basadas, al menos en parte, en la configuración del altavoz local del sistema que reproducirá el audio decodificado. El flujo de bits también puede incluir una o más matrices de renderización que pueden decodificarse a partir del flujo de bits codificado. El decisor de matriz de renderizado local/señalizado 908 determina cuál de las matrices de renderizado localmente generadas o señalizadas usar cuando se reproducen los datos de audio. El renderizador de altavoces 910 emite audio a uno o más altavoces en función de la matriz de renderización elegida.
La figura 20B es un diagrama de bloques que ilustra otro ejemplo del dispositivo de descodificación de audio 900. En el ejemplo de la FIG. 20B, el dispositivo de decodificación de audio 900 incluye además el generador de matriz de efectos 912. El generador de matriz de efectos 912 puede determinar a partir del flujo de bits un tamaño de pantalla de referencia y determinar, en función del sistema que se utiliza para mostrar los datos de video correspondientes, un tamaño de ventana de visualización. Basado en el tamaño de la pantalla de referencia y el tamaño de la ventana de visualización, el generador de matriz de efectos 912 puede generar una matriz de efecto (F) para modificar la matriz de renderización (R') seleccionada por el decisor de matriz de renderización local/señalizado 908. En el ejemplo de la FIG. 20B, el renderizador de altavoces 910 puede emitir audio a uno o más altavoces en función de la matriz de renderización modificada (D). En el ejemplo, de la FIG. 20C, el dispositivo de decodificación de audio 900 puede configurarse para renderizar solo el efecto si en ConfigDecodificadorHOA() el indicador es Indicador Relativode Pantalla == 1.
De acuerdo con las técnicas de esta divulgación, el generador de matriz de efectos 912 también puede generar una matriz de efectos en respuesta a la rotación de la pantalla. El generador de matriz de efectos 912 puede, por ejemplo, generar una matriz de efectos de acuerdo con el siguiente algoritmo. Un algoritmo de ejemplo para la nueva función de asignación, en pseudocódigo, es:
%1. calcular el parámetro relativo de asignación de pantalla
Anchuraoriginal = Angulosoriginales.azi( 1) - Angulosoriginales.azi(2);
Alturaoriginal = Angulosoriginales.ele( 1) - Angulosoriginales.ele(2);
nuevaAnchura = nuevosAngulos.azi(1) - nuevosAngulos.azi(2);
nuevaAltura = nuevosAngulos.ele(l) - nuevosAngulos.ele(2);
%2. encontrar centro de la pantalla de referencia y el centro de la ventana de visualización.
Centrooriginal.azi = Angulosoriginales.azi(l) - Anchuraoriginal * 0,5;
Centrooriginal.ele = Angulosoriginales.ele( ]) - Alturaoriginal * 0,5;
nuevoCentro.azi = nuevosAngulos.azi(l) - nuevaAnchura * 0,5;
nuevoCentro.ele = nuevosAngulos.ele(l) - nuevaAltura * 0,5;
%3. Hacer asignación relativa a la pantalla relativa
Relaciónaltura = nuevaAltura/Alturaoriginal;
Relaciónanchura = nuevaAnchura/Anchuraoriginal;
Asignación de posiciones espaciales igualmente distribuidas usando la función de asignación relacionada con la pantalla MPEG-H usando Relaciónaltura y Relaciónanchura, en lugar de las posiciones absolutas de producción y ventana de visualización.
%4. girar el campo de sonido
girando la posición espacial procesada en (3.) desde Centrooriginal a Centronuevo.
%5. Calcular matriz de efecto HOA
utilizando posiciones espaciales originales y posiciones espaciales procesadas (desde 4.)
De acuerdo con las técnicas de esta divulgación, el generador de matriz de efectos 912 también puede generar una matriz de efectos en respuesta a la rotación de la pantalla. El generador de matriz de efectos 912 puede, por ejemplo, generar una matriz de efectos de acuerdo con el siguiente algoritmo.
1. Calcular el parámetro relativo de asignación de pantalla:
Relaciónanchura = Anchuralocal/Anchuraproducción;
Relaciónaltura = Alturalocal/Alturaproducción;
con:
Anchuraproducción = Aci producción L - Aci producción R;
Alturaproducción = Ele_producción_Sup - Ele_producción_Inf;
Anchuralocal = Ací local_L - Azi local_R;
Alturalocal = Ele local Sup - Ele_local_Inf;
2. Calcular las coordenadas del centro de la pantalla de producción normativa y el centro de la pantalla de reproducción local:
Centroproducción_Aci = Aci_producción L - Anchuraproducción/2;
Centroproducción_Ele = Ele_producción Sup - Alturaproducción/2;
CentrolocalA ci = A c i l o c a l L - Anchuralocal/2;
Centrolocal Ele = EleJocal Sup - Alturalocal/2;
3. Asignación relacionada con la pantalla:
Asignación de O900 con función de asignación relacionada con la pantalla usando Relaciónaltura y Relaciónanchura
Í1 900
para m
4. Girar posiciones:
O 900
Girar la posición espacial desde la coordenada Centroproducción a la coordenada Centrolocal, utilizando el £ |900
núcleo de rotación R, lo que resulta en 15 m r
Figure imgf000021_0001
rotación del eje y (inclinación) rotación del eje z (guiñada)
5. Cálculo de la matriz de efectos HOA:
F = pinv ( V 9007-) V 900 1mr (4)
Figure imgf000021_0002
La FIG. 20C es un diagrama de bloques que ilustra un dispositivo de descodificación 900 de ejemplo. En el ejemplo de la FIG. 20C, el dispositivo de decodificación de audio 900 generalmente opera de la misma manera descrita anteriormente para el ejemplo de la FIG. 20B, pero en el ejemplo de la FIG. 20C, el generador de matriz de efectos 912 está configurado además para determinar un factor de escala para una operación de zoom, y en base a la información de escala, el tamaño de la pantalla de referencia y el tamaño de la ventana de visualización, genera una matriz de efectos (F) para modificar la matriz de renderización (R') seleccionada por la matriz de renderización local/señalizada 908. En el ejemplo de la FIG. 20C, el renderizador de altavoces 910 emite audio a uno o más altavoces en función de la matriz de renderización modificada (D). En el ejemplo, de la FIG. 20C, el dispositivo de decodificación de audio 900 puede configurarse para renderizar solo el efecto si en ConfigDecodificadorHOAQ el indicador es Indicador HOA relativo de pantalla == 1.
El indicador HOA relativo de pantalla en la tabla de sintaxis ConfigDecodificadorHOAQ (que se muestra a continuación como la Tabla 1) es suficiente para permitir la adaptación del contenido de HOA relacionado con la pantalla al tamaño de la pantalla de reproducción. La información en la pantalla de producción nominal puede señalizarse por separado como parte de un elemento de audio de metadatos.
Tabla 1 - Sintaxis de ConfigDecodificadorHOAQ, Tabla 120 en DIS 23008
Figure imgf000022_0001
Un sistema de reproducción de audio de la presente divulgación, tal como el sistema de reproducción de audio 16, está configurado para renderizar una señal de audio HOA al renderizar la señal de audio HOA en uno o más altavoces (por ejemplo, altavoces 3) en base a uno o más parámetros de FOV de una pantalla de referencia (por ejemplo, parámetros de FOV 13') y uno o más parámetros de FOV de una ventana de visualización. La renderización puede, por ejemplo, basarse más en un factor de escala obtenido en respuesta a una operación de zoom iniciada por el usuario. En algunos ejemplos, el uno o más parámetros de FOV para la pantalla de referencia pueden incluir una ubicación de un centro de la pantalla de referencia y una ubicación de un centro de la ventana de visualización.
El sistema de reproducción de audio 16 recibe un flujo de bits de datos de audio codificados que comprenden la señal de audio HOA. Los datos de audio codificados pueden estar asociados con los datos de video correspondientes. El sistema de reproducción de audio 16 obtenido desde el flujo de bits el uno o más parámetros de FOV (por ejemplo, parámetros de FOV 13') de la pantalla de referencia para los datos de video correspondientes.
El sistema de reproducción de audio 16 también puede obtener uno o más parámetros de FOV de la ventana de visualización para visualizar los datos de video correspondientes. Los parámetros de FOV de la ventana de visualización pueden determinarse localmente en función de cualquier combinación de entrada del usuario, mediciones automatizadas, valores predeterminados o similares.
El sistema de reproducción de audio 16 determina un renderizador, a partir de los renderizadores de audio 22, para los datos de audio codificados, basándose en uno o más parámetros de FOV de la ventana de visualización y el uno o más parámetros de FOV de la pantalla de referencia, modifica uno de los renderizadores de audio 22 y, basándose en el procesador modificado y los datos de audio codificados, renderiza la señal de audio HOA a través de uno o más altavoces. El sistema de reproducción de audio 16 puede modificar uno de los renderizadores de audio 22 basándose adicionalmente en el factor de escala cuando se realiza una operación de zoom.
El sistema de reproducción de audio 16 puede, por ejemplo, determinar el renderizador de los datos de audio codificados en función de una configuración de altavoces, que incluye, entre otros, una geometría espacial de uno o más altavoces y/o varios altavoces disponibles para la reproducción.
Los renderizados de audio 22 pueden, por ejemplo, incluir un algoritmo para convertir los datos de audio codificados a un formato de reproducción y/o usar un formato de renderizado. El formato de renderizado puede, por ejemplo, incluir cualquiera de una matriz, un rayo, una línea o un vector. Los renderizadores de audio 22 pueden señalizarse en el flujo de bits o determinarse en función de un entorno de reproducción.
El uno o más parámetros de FOV para la pantalla de referencia pueden incluir uno o más ángulos de acimut para la pantalla de referencia. El uno o más ángulos de acimut para la pantalla de referencia pueden incluir un ángulo de acimut izquierdo para la pantalla de referencia y un ángulo de acimut derecho para la pantalla de referencia. El uno o más parámetros de FOV para la pantalla de referencia pueden incluir alternativa o adicionalmente uno o más ángulos de elevación para la pantalla de referencia. El uno o más ángulos de elevación para la pantalla de referencia pueden incluir un ángulo de elevación superior para la pantalla de referencia y un ángulo de elevación inferior para la pantalla de referencia.
El uno o más parámetros de FOV para la ventana de visualización pueden incluir uno o más ángulos de acimut para la ventana de visualización. El uno o más ángulos de acimut para la ventana de visualización pueden incluir un ángulo de acimut izquierdo para la ventana de visualización y un ángulo de acimut derecho para la ventana de visualización. El uno o más parámetros de FOV para la ventana de visualización pueden incluir uno o más ángulos de acimut para la ventana de visualización. El uno o más ángulos de elevación para la ventana de visualización pueden incluir un ángulo de elevación superior para la ventana de visualización y un ángulo de elevación inferior para la ventana de visualización.
El sistema de reproducción de audio 16 puede modificar uno o más renderizadores de audio 22 determinando una función de asignación de ángulo de acimut para modificar un ángulo de acimut de un altavoz en función de uno o más parámetros de FOV de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización y la modificación de un ángulo de acimut para un primer altavoz de uno o más altavoces para generar un ángulo de acimut modificado para el primer altavoz basado en la función de asignación del ángulo de acimut.
La función de asignación del ángulo acimutal comprende:
Figure imgf000023_0001
en el que y ’ representa el ángulo de acimut modificado para el primer altavoz;
(p representa el ángulo de acimut para el primer altavoz;
nominal
izquierda representa un ángulo de acimut izquierdo de la pantalla de referencia;
... nominaI
■ derecha representa un ángulo de acimut recto de la pantalla de referencia;
repro
‘P izquierda representa un ángulo de acimut izquierdo de la ventana de visualización; y,
repro
derecha representa un ángulo de acimut recto de la ventana de visualización.
El sistema de reproducción de audio 16 modifica el renderizador determinando una función de asignación de ángulo de elevación para modificar un ángulo de elevación de un altavoz en función de uno o más parámetros de FOV de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización y modificando un ángulo de elevación para un primer altavoz de uno o más altavoces en función de la función de asignación del ángulo de elevación.
La función de asignación del ángulo de elevación comprende:
Qrepro , Q Q ”
u inferior ^ yyJ
r \ nominal
Figure imgf000024_0001
para - 9 o ° < 0 < c r '
" inferior + 90°
Figure imgf000024_0002
en el que 9 representa el ángulo de acimut modificado para el primer altavoz;
9 representa el ángulo de acimuth para el primer altavoz;
q nominal
' superior representa un ángulo de elevación superior de la pantalla de referencia;
o nominal
inferior representa un ángulo de elevación inferior de la pantalla de referencia;
0 repro
superior representa un ángulo de elevación superior de la ventana de visualización; y,
0 repro
inferior representa un ángulo de elevación inferior de la ventana de visualización.
El sistema de reproducción de audio 16 puede modificar el renderizador en respuesta a una función de zoom iniciada por el usuario en la ventana de visualización. Por ejemplo, en respuesta a una función de zoom iniciada por el usuario, el sistema de reproducción de audio 16 puede determinar uno o más parámetros de FOV de una ventana de visualización ampliada y, en función de uno o más parámetros de FOV de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización ampliada, modifique el renderizador. El sistema de reproducción de audio 16 también puede modificar el renderizador determinando uno o más parámetros de FOV de una ventana de visualización ampliada en función del factor de escala y el uno o más parámetros de FOV de la ventana de visualización, determinando una función de asignación del ángulo acimutal para modificar un ángulo acimutal de un altavoz basado en el uno o más parámetros de FOV de la ventana de visualización ampliada y el uno o más parámetros de FOV de la pantalla de referencia, y modificando un ángulo de acimut para un primer altavoz de uno o más altavoces para generar un ángulo de acimut modificado para primer altavoz basado en la función de asignación del ángulo de acimut.
La función de asignación del ángulo acimutal comprende:
Figure imgf000024_0003
en el que y ’ representa el ángulo de acimut modificado para el primer altavoz;
y representa el ángulo de acimut para el primer altavoz;
nominal
r*izquierda representa un ángulo de acimut izquierdo de la pantalla de referencia;
nominal
■ ' derecha un ángulo de acimut recto de la pantalla de referencia;
repro
rizquierda representa un ángulo de acimut izquierdo de la ventana de visualización ampliada; y,
repro
r derecha representa un ángulo de acimut recto de la ventana de visualización ampliada.
El sistema de reproducción de audio 16 modifica el renderizador determinando uno o más parámetros de FOV de una ventana de visualización ampliada con base en el factor de escala y el uno o más parámetros de FOV de la ventana de visualización, determinando una función de asignación del ángulo de elevación para modificar un ángulo de elevación de un altavoz basado en uno o más parámetros de FOV de la ventana de visualización ampliada y uno o más parámetros de FOV de la pantalla de referencia, y modificando un ángulo de elevación para un primer altavoz de uno o más altavoces para generar un ángulo de elevación modificado para el primer altavoz basado en la función de asignación del ángulo de elevación.
La función de asignación del ángulo de elevación comprende:
Figure imgf000025_0001
en el que & representa el ángulo de elevación modificado para el primer altavoz;
9 representa el ángulo de elevación para el primer altavoz;
a nominal
superior representa un ángulo de elevación superior de la pantalla de referencia;
0 nominaI
in fe rio r representa un ángulo de elevación inferior de la pantalla de referencia;
repro
0 s,uperio r representa un ángulo de elevación superior de la ventana de visualización ampliada; y,
repro
0
in fe rio r representa un ángulo de elevación inferior de la ventana de visualización ampliada.
El sistema de reproducción de audio 16 puede determinar el uno o más parámetros de FOV de la ventana de visualización ampliada determinando uno o más ángulos de aCimut para la ventana de visualización ampliada con base en uno o más ángulos de azimut para la ventana de visualización y el factor de escala. El sistema de reproducción de audio 16 puede determinar el uno o más parámetros de FOV de la ventana de visualización ampliada determinando uno o más ángulos de elevación para la ventana de visualización ampliada basándose en uno o más ángulos de elevación para la ventana de visualización y el factor de escala. El sistema de reproducción de audio 16 puede determinar el centro de la pantalla de referencia en función de uno o más parámetros de FOV de la pantalla de referencia y determinar el centro de la ventana de visualización en función de uno o más parámetros de FOV de la ventana de visualización.
El sistema de reproducción de audio 16 puede configurarse para determinar un renderizador para los datos de audio codificados, modificar el renderizador basado en el centro de la ventana de visualización y el centro de la pantalla de referencia, y renderizar la señal de audio HOA a través de uno o más altavoces según el renderizador modificado y los datos de audio codificados.
El sistema de reproducción de audio 16 puede determinar el centro de la ventana de visualización de acuerdo con el siguiente algoritmo:
Anchuraoriginal = Angulosoriginales.azi(l) - Angulosoriginales.azi(2);
Alturaoriginal = Angulosoriginales.ele(l) - Angulosoriginales.ele(2);
nuevaAnchura = nuevosAngulos.azi(l) - nuevos Angulos. azi(2);
nuevaAltura = nuevosAngulos.ele(l) - nuevosAngulos.ele(2);
Centrooriginal.azi = Angulosoriginales.azi(l) - Anchuraoriginal * 0,5;
Centrooriginal.ele = Angulosoriginales.ele(l) - Alturaoriginal * 0,5;
nuevoCentro.azi = nuevosAngulos.azi(l) - nuevaAnchura * 0,5;
nuevoCentro.ele = nuevosAngulos.ele(l) - nuevaAltura * 0,5;
en el que "Anchuraoriginal" representa una anchura de la pantalla de referencia; "Alturaoriginal" representa una altura de la pantalla de referencia; "Angulosoriginales,azi(1)" representa un primer ángulo acimutal de la pantalla de referencia; "Angulosoriginales.azi(2)" representa un segundo ángulo de acimut de la pantalla de referencia; "Angulosoriginales.ele(1)" representa un primer ángulo de elevación de la pantalla de referencia; "Angulosoriginales.ele(2)" representa un segundo ángulo de elevación de la pantalla de referencia; "nuevaAnchura" representa una anchura de la ventana de visualización; "nuevaAltura" representa una altura de la ventana de visualización; "nuevosAngulos.azi(1)" representa un primer ángulo acimutal de la ventana de visualización; "nuevosAngulos.azi(2)" representa un segundo ángulo de acimut de la ventana de visualización; "nuevosAngulos.ele(1)" representa un primer ángulo de elevación de la ventana de visualización; "nuevosAngulos.ele(2)" representa un segundo ángulo de elevación de la ventana de visualización; "Centrooriginal.azi" representa el ángulo acimutal del centro de la pantalla de referencia; "Centrooriginal.ele" representa el ángulo de elevación del centro de la pantalla de referencia; "nuevoCentro.azi" representa el ángulo acimutal del centro de la ventana de visualización; "nuevoCentro.ele" representa el ángulo de elevación del centro de la ventana de visualización.
El sistema de reproducción de audio 16 puede rotar el campo de sonido desde el centro de la pantalla de referencia hasta el centro de la ventana de visualización.
La señal de audio HOA puede ser parte de un flujo de bits compatible con 3D MPEG-H. La ventana de visualización puede ser, por ejemplo, una pantalla de reproducción o una parte de una pantalla de reproducción. La ventana de visualización también puede corresponder a una pantalla local. La pantalla de referencia puede, por ejemplo, ser una pantalla de producción.
El sistema de reproducción de audio 16 puede configurarse para recibir un elemento de sintaxis que indique valores para uno o más parámetros de FOV de la pantalla de referencia correspondientes a los valores predeterminados y/o recibir un elemento de sintaxis que indique valores para uno o más parámetros de FOV de la pantalla de referencia a valores señalados incluidos en un flujo de bits que comprende la señal de audio HOA.
La FIG. 21 es un diagrama de flujo que ilustra el funcionamiento a modo de ejemplo de un dispositivo de decodificación de audio al realizar las técnicas de adaptación basadas en pantalla descritas en esta divulgación. Las técnicas de la FIG. 21 se describirán con respecto al dispositivo de consumo de contenido 14, pero debe entenderse que las técnicas de la FIG. 21 no están necesariamente limitadas a dicho dispositivo y pueden ser realizadas por otros tipos de dispositivos de renderización de audio. El dispositivo de consumo de contenido 14 obtiene uno o más parámetros de FOV para una ventana de visualización y uno o más parámetros de FOV para una pantalla de referencia (1000). El dispositivo de consumo de contenido 14 puede, por ejemplo, obtener uno o más parámetros de FOV para la pantalla de referencia de un flujo de bits que incluye una señal de audio HOA. El dispositivo de consumo de contenido 14 puede obtener uno o más parámetros de FOV para la ventana de visualización localmente en función de las características de una pantalla local, tal como un tamaño de la pantalla local. Los parámetros de FOV también pueden basarse en características tales como una orientación de la pantalla, una cantidad de zoom utilizada para mostrar video y otras características similares. Basado en uno o más parámetros de FOV del campo de visión de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización, el dispositivo de consumo de contenido 14 renderiza la señal de audio HOA en uno o más altavoces (1020).
Las técnicas anteriores pueden realizarse con respecto a cualquier cantidad de contextos y ecosistemas de audio diferentes. A continuación se describen varios contextos a modo de ejemplo, aunque las técnicas deberían limitarse a los contextos a modo de ejemplo. Un ecosistema a modo de ejemplo de audio puede incluir contenido de audio, estudios de cine, estudios de música, estudios de audio de juegos, contenido de audio basado en canales, motores de codificación, derivaciones de audio de juegos, motores de codificación/renderización de audio de juegos y sistemas de suministro.
Los estudios de cine, los estudios de música y los estudios de audio de juegos pueden recibir contenido de audio. En algunos ejemplos, el contenido de audio puede representar el resultado de una adquisición. Los estudios de cine pueden emitir contenido de audio basado en canales (por ejemplo, en 2.0, 5.1 y 7.1), tal como utilizando una estación de trabajo de audio digital (DAW). Los estudios de música pueden emitir contenido de audio basado en canales (por ejemplo, en 2.0 y 5.1), tal como utilizando una DAW. En cualquier caso, los motores de codificación pueden recibir y codificar el contenido de audio basado en canales basándose en uno o más códecs (por ejemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus y DTS Master Audio) para emitir por los sistemas de suministro. Los estudios de audio de juegos pueden emitir uno o más fragmentos de audio de juego, por ejemplo, mediante una DAW. Los motores de codificación/renderización de audios de juego pueden codificar y/o renderizar las derivaciones de audio como contenido de audio basado en canales para su emisión por los sistemas de suministro. Otro ejemplo de contexto en el que se pueden realizar las técnicas comprende un ecosistema de audio que puede incluir grabación difundida de objetos de audio, sistemas de audio profesionales, captura de consumidores en el dispositivo, formato de audio HOA, renderización en el dispositivo, audio del consumidor, televisión y accesorios, y sistemas de audio para el automóvil.
Los objetos de audio de grabación difundida, los sistemas de audio profesionales y la captura de consumidores en el dispositivo pueden codificar todos sus resultados utilizando el formato de audio HOA. De esta manera, el contenido de audio puede codificarse utilizando el formato de audio HOA en una representación única que puede reproducirse utilizando la renderización en dispositivo, el audio de consumidor, la televisión y accesorios y los sistemas de audio para automóviles. En otras palabras, la representación única del contenido de audio se puede reproducir en un sistema genérico de reproducción de audio (es decir, en lugar de requerir una configuración particular tal como 5,1, 7,1, etc.), tal como un sistema de reproducción de audio 16.
Otros ejemplos de contexto en los que se pueden realizar las técnicas incluyen un ecosistema de audio que puede incluir elementos de adquisición y elementos de reproducción. Los elementos de adquisición pueden incluir dispositivos de adquisición alámbricos y/o inalámbricos (por ejemplo, micrófonos Figen), captura de sonido envolvente en dispositivo y dispositivos móviles (por ejemplo, teléfonos inteligentes y tablets). En algunos ejemplos, los dispositivos de adquisición alámbricos y/o inalámbricos pueden estar acoplados al dispositivo móvil mediante uno o más canales de comunicación alámbricos y/o inalámbricos.
De acuerdo con una o más técnicas de esta divulgación, el dispositivo móvil puede usarse para adquirir un campo sonoro. Por ejemplo, el dispositivo móvil puede adquirir un campo sonoro mediante dispositivos de adquisición alámbricos y/o inalámbricos y/o la captura de sonido envolvente en el dispositivo (por ejemplo, una pluralidad de micrófonos integrados en el dispositivo móvil). El dispositivo móvil puede entonces codificar el campo sonoro adquirido en los coeficientes HOA para la reproducción por uno o más de los elementos de reproducción. Por ejemplo, un usuario del dispositivo móvil puede grabar (adquirir un campo sonoro de) un suceso en vivo (por ejemplo, una reunión, una conferencia, una obra de teatro, un concierto, etc.) y codificar la grabación en coeficientes HOA.
El dispositivo móvil también puede usar uno o más de los elementos de reproducción para reproducir el campo sonoro codificado por HOA. Por ejemplo, el dispositivo móvil puede descodificar el campo sonoro codificado por HOA y emitir una señal a uno o más de los elementos de reproducción, que hace que los uno o más de los elementos de reproducción recreen el campo sonoro. Como ejemplo, el dispositivo móvil puede usar los canales de comunicación inalámbricos y/o inalámbricos para emitir la señal a uno o más altavoces (por ejemplo, matrices de altavoces, barras de sonido, etc.). Como otro ejemplo, el dispositivo móvil puede usar soluciones de acoplamiento para emitir la señal a una o más estaciones de acoplamiento y/o uno o más altavoces acoplados (por ejemplo, sistemas de sonido en coches inteligentes y/u hogares). Como otro ejemplo, el dispositivo móvil puede usar la renderización de auriculares para emitir la señal a un conjunto de auriculares, por ejemplo, para crear un sonido binaural realista.
En algunos ejemplos, un dispositivo móvil particular puede adquirir un campo sonoro tridimensional y reproducir el mismo campo sonoro tridimensional en un momento posterior. En algunos ejemplos, el dispositivo móvil puede adquirir un campo sonoro tridimensional, codificar el campo sonoro tridimensional en HOA y transmitir el campo sonoro tridimensional codificado a otros uno o más dispositivos (por ejemplo, otros dispositivos móviles y/u otros dispositivos no móviles) para su reproducción.
Otro contexto más en el que las técnicas se pueden realizar incluye un ecosistema de audio que puede incluir contenido de audio, estudios de juegos, contenido de audio codificado, motores de renderizado y sistemas de suministro. En algunos ejemplos, los estudios de juego pueden incluir una o más DAW que pueden prestar soporte a la edición de señales HOA. Por ejemplo, las una o más DAW pueden incluir acoples HOA y/o herramientas que pueden ser configuradas para funcionar con (por ejemplo, trabajar con) uno o más sistemas de audio de juegos. En algunos ejemplos, los estudios de juego pueden producir nuevos formatos de derivación que den soporte a HOA. En cualquier caso, los estudios de juego pueden emitir contenido de audio codificado a los motores de renderizado que pueden renderizar un campo sonoro para su reproducción mediante los sistemas de suministro.
Las técnicas también se pueden realizar con respecto a dispositivos a modo de ejemplo de adquisición de audio. Por ejemplo, las técnicas se pueden realizar con respecto a un micrófono Figen que puede incluir una pluralidad de micrófonos que están configurados colectivamente para grabar un campo sonoro tridimensional. En algunos ejemplos, la pluralidad de micrófonos del micrófono Figen puede estar situada en la superficie de una bola esencialmente esférica con un radio de aproximadamente 4 cm. En algunos ejemplos, el dispositivo de codificación de audio 20 puede estar integrado en el micrófono Figen a fin de emitir un flujo de bits de audio 21 directamente desde el micrófono.
Otro contexto a modo de ejemplo de adquisición de audio puede incluir un camión de producción que puede configurarse para recibir una señal desde uno o más micrófonos, tal como uno o más micrófonos Figen. La línea producción también puede incluir un codificador de audio, tal como el dispositivo de codificación de audio 20 de la FIG.
3.
El dispositivo móvil puede incluir también, en algunos casos, una pluralidad de micrófonos que están configurados colectivamente para grabar un campo sonoro tridimensional. En otras palabras, la pluralidad de micrófonos puede tener diversidad X, Y, Z. En algunos ejemplos, el dispositivo móvil puede incluir un micrófono que puede ser girado para proporcionar diversidad X, Y, Z con respecto a otros uno o más micrófonos del dispositivo móvil. El dispositivo móvil también puede incluir un codificador de audio, tal como el dispositivo de codificación de audio 20 de la FIG. 3.
Un dispositivo de captura de vídeo robustecido puede configurarse adicionalmente para grabar un campo sonoro tridimensional. En algunos ejemplos, el dispositivo de captura de vídeo robustecido puede estar unido a un casco de un usuario que participa en una actividad. Por ejemplo, el dispositivo de captura de vídeo robustecido puede estar unido a un casco de un usuario que realiza descenso de ríos. De esta manera, el dispositivo de captura de vídeo robustecido puede capturar un campo sonoro tridimensional que representa la acción alrededor del usuario (por ejemplo, agua que se estrella detrás del usuario, otro navegante que habla delante del usuario, etc.).
Las técnicas también se pueden realizar con respecto a un dispositivo móvil mejorado accesorio, que se puede configurar para grabar un campo sonoro tridimensional. En algunos ejemplos, el dispositivo móvil puede ser similar a los dispositivos móviles analizados anteriormente, con la adición de uno o más accesorios. Por ejemplo, un micrófono Figen se puede unir al dispositivo móvil mencionado anteriormente para formar un dispositivo móvil mejorado accesorio. De esta manera, el dispositivo móvil mejorado accesorio puede capturar una versión del campo sonoro tridimensional de calidad superior que utilizando únicamente componentes de captura de sonido integrados en el dispositivo móvil mejorado accesorio.
Los dispositivos a modo de ejemplo de reproducción de audio que pueden llevar a cabo diversos aspectos de las técnicas descritas en esta divulgación se analizan adicionalmente a continuación. De acuerdo con una o más técnicas de esta divulgación, los altavoces y/o las barras de sonido pueden disponerse en cualquier configuración arbitraria mientras se sigue reproduciendo un campo sonoro tridimensional. Además, en algunos ejemplos, los dispositivos de reproducción de auriculares pueden estar acoplados a un dispositivo de descodificación de audio 24 mediante una conexión por cable o bien inalámbrica. De acuerdo con una o más técnicas de esta divulgación, se puede usar una única representación genérica de un campo sonoro para renderizar el campo sonoro sobre cualquier combinación de altavoces, barras de sonido y dispositivos de reproducción de auriculares.
Un cierto número de diferentes entornos de reproducción de audio de ejemplo también pueden ser adecuados para realizar diversos aspectos de las técnicas descritas en esta divulgación. Por ejemplo, un entorno de reproducción de altavoces 5.1, un entorno de reproducción de altavoces 2.0 (por ejemplo, estéreo), un entorno de reproducción de altavoces 9.1 con altavoces frontales de altura completa, un entorno de reproducción de altavoces 22.2, un entorno de reproducción de altavoces 16.0, un entorno de reproducción de altavoces automotrices y un dispositivo móvil con entorno de reproducción por audífono pueden ser entornos adecuados para realizar diversos aspectos de las técnicas descritas en esta divulgación.
De acuerdo con una o más técnicas de esta divulgación, se puede usar una única representación genérica de un campo sonoro para renderizar el campo sonoro en cualquiera de los entornos de reproducción precedentes. Adicionalmente, las técnicas de esta divulgación permiten a un renderizador renderizar un campo sonoro a partir de una representación genérica para la reproducción en entornos de reproducción distintos al descrito anteriormente. Por ejemplo, si las consideraciones de diseño prohíben la colocación correcta de los altavoces de acuerdo con un entorno de reproducción de altavoces 7.1 (por ejemplo, si no es posible colocar un altavoz envolvente derecho), las técnicas de esta divulgación permiten que un renderizador compense con los otros 6 altavoces de modo que la reproducción se pueda lograr en un entorno de reproducción de altavoces 6.1.
Además, un usuario puede observar un juego deportivo mientras utiliza los auriculares. De acuerdo con una o más técnicas de esta divulgación, el campo sonoro tridimensional del juego deportivo puede ser adquirido (por ejemplo, uno o más micrófonos Figen pueden ser colocados en y/o alrededor del estadio de béisbol), los coeficientes HOA correspondientes al campo sonoro tridimensional pueden obtenerse y transmitirse a un descodificador, el descodificador puede reconstruir el campo sonoro tridimensional basándose en los coeficientes HOA y emitir el campo sonoro tridimensional reconstruido a un renderizador, el renderizador puede obtener una indicación en cuanto al tipo de entorno de reproducción (por ejemplo, los auriculares) y renderizar el campo sonoro tridimensional reconstruido en señales que hacen que los auriculares emitan una representación del campo sonoro tridimensional del juego deportivo.
En cada uno de los diversos casos descritos anteriormente, debería entenderse que el dispositivo de codificación de audio 20 puede realizar un procedimiento o comprender de otro modo medios para realizar cada etapa del procedimiento, para el cual el dispositivo de codificación de audio 20 está configurado, en algunos casos; estos medios pueden comprender uno o más procesadores. En algunos casos, los uno o más procesadores pueden representar un procesador de propósito especial configurado por medio de instrucciones almacenadas en un medio de almacenamiento no transitorio legible por ordenador. En otras palabras, varios aspectos de las técnicas en cada uno de los conjuntos de ejemplos de codificación pueden proporcionar un medio de almacenamiento no transitorio legible por ordenador que tiene almacenadas en el mismo instrucciones que, cuando se ejecutan, hacen que los uno o más procesadores realicen el procedimiento, para el cual el dispositivo de codificación de audio 20 ha sido configurado.
En uno o más ejemplos, las funciones descritas se pueden implementar en hardware, software, firmware o cualquier combinación de los mismos. Si se implementan en software, las funciones se pueden almacenar en, o transmitir por, un medio legible por ordenador, como una o más instrucciones o código, y ejecutar mediante una unidad de procesamiento basada en hardware. Los medios legibles por ordenador pueden incluir medios de almacenamiento legibles por ordenador, que correspondan a un medio tangible tal como medios de almacenamiento de datos. Los medios de almacenamiento de datos pueden ser cualquier medio disponible al que se puede acceder desde uno o más ordenadores o uno o más procesadores para recuperar instrucciones, código y/o estructuras de datos para la implementación de las técnicas descritas en esta divulgación. Un producto de programa informático puede incluir un medio legible por ordenador.
Análogamente, en cada uno de los diversos casos descritos anteriormente, debería entenderse que el dispositivo de descodificación de audio 24 puede realizar un procedimiento o comprender de otro modo medios para realizar cada etapa del procedimiento para realizar el cual está configurado el dispositivo de descodificación de audio 24. En algunos casos, estos medios pueden comprender uno o más procesadores. En algunos casos, los uno o más procesadores pueden representar un procesador de propósito especial configurado por medio de instrucciones almacenadas en un medio de almacenamiento no transitorio legible por ordenador. En otras palabras, varios aspectos de las técnicas en cada uno de los conjuntos de ejemplos de codificación pueden proporcionar un medio de almacenamiento no transitorio legible por ordenador que tiene almacenadas en él instrucciones que, cuando se ejecutan, hacen que uno o más procesadores realicen el procedimiento para realizar el cual el dispositivo de descodificación de audio 24 ha sido configurado.
A modo de ejemplo, y no de limitación, dichos medios de almacenamiento legibles por ordenador pueden comprender RAM, ROM, EEPROM, CD-ROM u otro almacenamiento de disco óptico, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, memoria flash o cualquier otro medio que se puede usar para almacenar código de programa deseado en forma de instrucciones o estructuras de datos y al que se puede acceder mediante un ordenador. Sin embargo, se deberá entender que los medios de almacenamiento legibles por ordenador y los medios de almacenamiento de datos no incluyen conexiones, ondas portadoras, señales u otros medios transitorios, sino que, en cambio, están dirigidos a medios de almacenamiento no transitorio tangibles. El término disco, como se usa en el presente documento, incluye el disco compacto (CD), disco láser, disco óptico, disco versátil digital (DVD), disco flexible y disco Blu-ray, de los cuales los discos flexibles normalmente reproducen datos magnéticamente, mientras que los demás discos reproducen datos ópticamente con láseres. Las combinaciones de los anteriores deberían estar incluidos también dentro del alcance de los medios legibles por ordenador.
Uno o más procesadores, tales como uno o más procesadores de señales digitales (DSP), microprocesadores de propósito general, circuitos integrados específicos de la aplicación (ASIC), matrices lógicas programables in situ (FPGA) u otros circuitos lógicos integrados o discretos equivalentes pueden ejecutar las instrucciones. En consecuencia, el término "procesador", como se usa en el presente documento, se puede referir a cualquiera de las estructuras anteriores o a cualquier otra estructura adecuada para la implementación de las técnicas descritas en el presente documento. Además, en algunos aspectos, la funcionalidad descrita en el presente documento se puede proporcionar dentro de módulos de hardware y/o de software dedicados configurados para codificar y descodificar, o incorporar en un códec combinado. Asimismo, las técnicas se podrían implementar por completo en uno o más circuitos o elementos lógicos.
Las técnicas de esta divulgación se pueden implementar en una amplia variedad de dispositivos o aparatos, incluyendo un teléfono inalámbrico, un circuito integrado (IC) o un conjunto de IC (por ejemplo, un conjunto de chips). En esta divulgación se describen diversos componentes, módulos o unidades para destacar aspectos funcionales de dispositivos configurados para realizar las técnicas divulgadas, pero no se requiere necesariamente su realización por diferentes unidades de hardware. En su lugar, como se ha descrito anteriormente, diversas unidades se pueden combinar en una unidad de hardware de códec o proporcionar mediante un grupo de unidades de hardware interoperativas, que incluye uno o más procesadores como se describe anteriormente, junto con software y/o firmware adecuados.
Se han descrito diversos aspectos de las técnicas. Estos y otros aspectos están dentro del alcance de las reivindicaciones siguientes.

Claims (15)

REIVINDICACIONES
1. Un dispositivo para renderizar una señal de audio ambisónica de orden superior, HOA, comprendiendo el dispositivo: uno o más procesadores configurados para:
recibir un flujo de bits que comprende datos de audio HOA (11') asociados con una señal de audio HOA (21) y uno o más parámetros de campo de visión, FOV (13') de una pantalla de referencia;
determinar una matriz de renderización (R') para los datos de audio de HOA;
en respuesta a una operación de zoom iniciada por el usuario, determinar uno o más parámetros del campo de visión, FOV, de una ventana de visualización ampliada;
modificar la matriz de renderización (R') para los datos de audio HOA basándose en uno o más parámetros de FOV de la pantalla de referencia y uno o más parámetros de FOV de la ventana de visualización ampliada para formar una matriz de renderización modificada (D); y
aplicar la matriz de renderización modificada (D) a al menos una porción de los datos de audio de HOA (11') para renderizar la señal de audio de HOA en una o más alimentaciones de altavoz (25).
2. El dispositivo de la reivindicación 1, en el que uno o más procesadores están configurados para, en respuesta a una operación de zoom iniciada por el usuario, obtener un factor de escala para determinar el uno o más parámetros de FOV de la ventana de visualización ampliada.
3. El dispositivo de la reivindicación 2, en el que uno o más procesadores están configurados para determinar el uno o más parámetros de FOV de la ventana de visualización ampliada con base en el factor de escala, en el que se modifica la matriz de renderización (R') de los datos de audio HOA basados en el uno o más parámetros de FOV de la pantalla de referencia y el uno o más parámetros de FOV de la ventana de visualización ampliada comprende: i) determinar una función de asignación de ángulo para modificar un ángulo de un altavoz; y ii) basándose en la función de asignación de ángulo, modificar un ángulo para un primer altavoz de uno o más altavoces para generar un ángulo modificado para el primer altavoz.
4. El dispositivo de la reivindicación 2 o la reivindicación 3, en el que para determinar el uno o más parámetros de FOV de la ventana de visualización ampliada, el uno o más procesadores se configuran además para:
determinar uno o más ángulos de acimut para la ventana de visualización ampliada basándose en uno o más ángulos de acimut para la ventana de visualización y el factor de escala; y
determinar uno o más ángulos de elevación para la ventana de visualización ampliada basándose en uno o más ángulos de elevación para la ventana de visualización y el factor de escala.
5. El dispositivo de cualquier reivindicación anterior, en el que determinar la matriz de renderización (R') comprende seleccionar, con base en la información de altavoz (13) indicativa de una configuración de altavoz asociada con una o más alimentaciones de altavoz, una matriz de renderización de una pluralidad de matrices de renderización, incluyendo la pluralidad de matrices de renderización una matriz de renderización incluida en un flujo de bits y una matriz de renderización generada localmente.
6. El dispositivo de cualquiera de las reivindicaciones 1 a 4, en el que la determinación de la matriz de renderización (R') comprende generar la matriz de renderización (R') basada en la información de altavoz (13) indicativa de una configuración de altavoz asociada con una o más alimentaciones de altavoz ya sea i) en respuesta a la determinación de que ninguna de una pluralidad de matrices de renderización disponibles para el decodificador está dentro de un umbral de medida de similitud con la configuración de altavoz asociada con una o más alimentaciones de altavoz, o ii) sin intentar primero seleccionar una de la pluralidad de renderizar matrices disponibles para el decodificador.
7. El dispositivo de cualquier reivindicación anterior, en el que uno o más procesadores están configurados para modificar la matriz de renderización (R') durante una fase de inicialización del dispositivo con base en uno o más parámetros de FOV de una ventana de visualización sin ampliación y posteriormente modificar la matriz de renderización basada en los parámetros de FOV de la ventana de visualización ampliada en respuesta a una operación de ampliación iniciada por el usuario, y en el que la matriz de renderización modificada (D) se aplica solo en respuesta a la determinación de que un indicador señalado esRelativodePantalla es igual a 1.
8. El dispositivo de cualquier reivindicación anterior, en el que modificar la matriz de renderización (R') para formar la matriz de renderización modificada (D) comprende generar una matriz de efectos (F) y multiplicar en conjunto la matriz de renderización (R') y la matriz de efectos (F), en el que generar la matriz de efectos (F) comprende:
generar una matriz de modo inicial para novecientos puntos de muestreo de una esfera;
con base en uno o más parámetros de FOV de la pantalla de referencia y el uno o más parámetros de FOV de la ventana de visualización ampliada, determinar una función de asignación para asignar un ángulo de acimut para la pantalla de referencia a un ángulo de acimut para la ventana de visión ampliada o asignar un ángulo de elevación para la pantalla de referencia a un ángulo de elevación para la ventana de visualización ampliada o asignar tanto un ángulo de acimut como un ángulo de elevación para la pantalla de referencia a un ángulo de acimut y un ángulo de elevación para la ventana de visualización ampliada;
generar una matriz de modo modificado modificando las direcciones de cada uno de los novecientos puntos de muestreo con base en la función de asignación; y
multiplicar juntos la matriz de modo modificada y la pseudoinversa de la matriz de modos inicial.
9. El dispositivo de cualquier reivindicación anterior, en el que uno o más parámetros de FOV para la pantalla de referencia comprenden al menos uno de uno o más ángulos acimutales para la pantalla de referencia o uno o más ángulos de elevación para la pantalla de referencia, y en el que el uno o más más parámetros de FOV para la ventana de visualización comprenden al menos uno de uno o más ángulos de acimut para la ventana de visualización o uno o más ángulos de elevación para la ventana de visualización.
10. El dispositivo de cualquier reivindicación anterior,
en el que el uno o más procesadores están configurados además para decodificar la señal de audio HOA para determinar una pluralidad de coeficientes HOA, y
en el que aplicar la matriz de renderización modificada (D) a al menos una porción de los datos de audio de HOA (11') para renderizar la señal de audio de HOA en una o más señales de altavoz comprende multiplicar en conjunto la matriz de renderización modificada (D) y al menos una porción de la pluralidad de coeficientes h Oa .
11. El dispositivo de cualquier reivindicación anterior, en el que el flujo de bits es un flujo de bits compatible con 3D MPEG-H.
12. El dispositivo de cualquier reivindicación anterior, en el que el dispositivo comprende además al menos un altavoz del uno o más altavoces, y en el que para renderizar la señal de audio HOA, el uno o más procesadores están configurados además para generar una alimentación de altavoz para controlar el al menos un altavoz.
13. El dispositivo de cualquier reivindicación anterior, en el que el dispositivo comprende además una pantalla para visualizar la ventana de visualización ampliada.
14. Un método para renderizar una señal de audio ambisónica de orden superior, HOA, comprendiendo el método: recibir un flujo de bits que comprende datos de audio HOA (11') asociados con una señal de audio HOA (21) y uno o más parámetros de campo de visión, FOV (13') de una pantalla de referencia;
determinar una matriz de renderización (R') para los datos de audio de HOA;
en respuesta a una operación de zoom iniciada por el usuario, determinar uno o más parámetros del campo de visión, FOV, de una ventana de visualización ampliada;
modificar la matriz de renderización (R') para los datos de audio de HOA con base en uno o más parámetros de FOV de la pantalla de referencia y el uno o más parámetros de FOV de la ventana de visualización ampliada para formar una matriz de renderización modificada (D); y
aplicar la matriz de renderización modificada (D) a al menos una porción de los datos de audio de HOA (11') para renderizar la señal de audio de HOA en una o más alimentaciones de altavoz (25).
15. Un medio de almacenamiento legible por ordenador que almacena instrucciones que cuando son ejecutadas por uno o más procesadores hacen que uno o más procesadores generen una señal de audio ambisónica de orden superior, HOA, incluyendo la renderización de la señal de audio HOA por uno o más procesadores:
recibir un flujo de bits que comprende datos de audio HOA (11') asociados con una señal de audio HOA (21) y uno o más parámetros de campo de visión, FOV (13') de una pantalla de referencia;
determinar una matriz de renderización (R') para los datos de audio de HOA;
en respuesta a una operación de zoom iniciada por el usuario, determinar uno o más parámetros del campo de visión, FOV, de una ventana de visualización ampliada;
modificar la matriz de renderización (R') para los datos de audio de HOA basándose en uno o más parámetros de FOV de la pantalla de referencia y el uno o más parámetros de FOV de la ventana de visualización ampliada para formar una matriz de renderización modificada (D); y
aplicar la matriz de renderización modificada (D) a al menos una porción de los datos de audio de HOA (11') para renderizar la señal de audio de HOA en una o más alimentaciones de altavoz (25).
ES19198794T 2014-10-10 2015-10-09 Adaptación relacionada con pantalla de contenido de HOA Active ES2900653T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462062761P 2014-10-10 2014-10-10
US14/878,948 US9940937B2 (en) 2014-10-10 2015-10-08 Screen related adaptation of HOA content

Publications (1)

Publication Number Publication Date
ES2900653T3 true ES2900653T3 (es) 2022-03-17

Family

ID=54364703

Family Applications (2)

Application Number Title Priority Date Filing Date
ES15787775T Active ES2774449T3 (es) 2014-10-10 2015-10-09 Adaptación relacionada con pantalla de contenido de HOA
ES19198794T Active ES2900653T3 (es) 2014-10-10 2015-10-09 Adaptación relacionada con pantalla de contenido de HOA

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES15787775T Active ES2774449T3 (es) 2014-10-10 2015-10-09 Adaptación relacionada con pantalla de contenido de HOA

Country Status (10)

Country Link
US (1) US9940937B2 (es)
EP (2) EP3205122B1 (es)
JP (1) JP6599451B2 (es)
KR (1) KR102077375B1 (es)
CN (1) CN106797527B (es)
BR (1) BR112017007267B1 (es)
ES (2) ES2774449T3 (es)
HU (1) HUE047302T2 (es)
SG (1) SG11201701554PA (es)
WO (1) WO2016057935A1 (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
KR102631929B1 (ko) * 2016-02-24 2024-02-01 한국전자통신연구원 스크린 사이즈에 연동하는 전방 오디오 렌더링 장치 및 방법
CN108346432B (zh) 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US11164606B2 (en) 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US10469968B2 (en) * 2017-10-12 2019-11-05 Qualcomm Incorporated Rendering for computer-mediated reality systems
GB2598751A (en) * 2020-09-10 2022-03-16 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4775609A (en) 1987-05-18 1988-10-04 Hoescht Celanese Corporation Image reversal
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
US20100328419A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US20120162362A1 (en) 2010-12-22 2012-06-28 Microsoft Corporation Mapping sound spatialization fields to panoramic video
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
KR102143545B1 (ko) * 2013-01-16 2020-08-12 돌비 인터네셔널 에이비 Hoa 라우드니스 레벨을 측정하기 위한 방법 및 hoa 라우드니스 레벨을 측정하기 위한 장치
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US10020000B2 (en) * 2014-01-03 2018-07-10 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping

Also Published As

Publication number Publication date
JP6599451B2 (ja) 2019-10-30
ES2774449T3 (es) 2020-07-21
WO2016057935A1 (en) 2016-04-14
EP3668124B1 (en) 2021-11-17
EP3205122B1 (en) 2019-11-20
BR112017007267A2 (pt) 2018-01-23
US20160104495A1 (en) 2016-04-14
EP3205122A1 (en) 2017-08-16
US9940937B2 (en) 2018-04-10
EP3668124A1 (en) 2020-06-17
HUE047302T2 (hu) 2020-04-28
SG11201701554PA (en) 2017-04-27
KR20170066400A (ko) 2017-06-14
JP2017535174A (ja) 2017-11-24
BR112017007267B1 (pt) 2022-03-03
CN106797527A (zh) 2017-05-31
CN106797527B (zh) 2019-06-21
KR102077375B1 (ko) 2020-02-13

Similar Documents

Publication Publication Date Title
ES2900653T3 (es) Adaptación relacionada con pantalla de contenido de HOA
ES2729624T3 (es) Reducción de la correlación entre canales de fondo ambisónicos de orden superior (HOA)
ES2922451T3 (es) Indicación de la reusabilidad de parámetros de un marco para la codificación de vectores
ES2674819T3 (es) Transición de coeficientes ambisónicos ambientales de orden superior
JP6820386B2 (ja) 高次アンビソニック(hoa)コンテンツの画面に関連した適応
ES2841419T3 (es) Canales de señalización para codificación escalable de datos de audio ambisónico de orden superior
US20150332682A1 (en) Spatial relation coding for higher order ambisonic coefficients
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
EP3143618B1 (en) Closed loop quantization of higher order ambisonic coefficients
ES2699657T3 (es) Obtención de información de dispersión para renderizadores de audio ambisónicos de orden superior
WO2015130765A1 (en) Order format signaling for higher-order ambisonic audio data
ES2696930T3 (es) Obtención de información de simetría para renderizadores de audio ambisónicos de orden superior