ES2950001T3 - Rastreo de cabeza para sistema de salida binaural paramétrica - Google Patents
Rastreo de cabeza para sistema de salida binaural paramétrica Download PDFInfo
- Publication number
- ES2950001T3 ES2950001T3 ES20157296T ES20157296T ES2950001T3 ES 2950001 T3 ES2950001 T3 ES 2950001T3 ES 20157296 T ES20157296 T ES 20157296T ES 20157296 T ES20157296 T ES 20157296T ES 2950001 T3 ES2950001 T3 ES 2950001T3
- Authority
- ES
- Spain
- Prior art keywords
- dominant
- audio component
- dominant audio
- initial output
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009877 rendering Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 abstract description 18
- 238000013519 translation Methods 0.000 abstract description 5
- 239000000203 mixture Substances 0.000 description 26
- 239000011159 matrix material Substances 0.000 description 19
- 230000008569 process Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Golf Clubs (AREA)
- Massaging Devices (AREA)
- Stereophonic Arrangements (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Un método para codificar audio de entrada basado en canal u objeto para reproducción, incluyendo el método los pasos de: (a) representar inicialmente el audio de entrada basado en canal u objeto en una presentación de salida inicial; (b) determinar una estimación del componente de audio dominante a partir del audio de entrada basado en canal u objeto y determinar una serie de factores de ponderación del componente de audio dominante para mapear la presentación de salida inicial en el componente de audio dominante; (c) determinar una estimación de la dirección o posición del componente de audio dominante; y (d) codificar la presentación de salida inicial, los factores de ponderación del componente de audio dominante, la dirección o posición del componente de audio dominante como la señal codificada para reproducción. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Rastreo de cabeza para sistema de salida binaural paramétrica
Referencia cruzada a solicitud relacionada
Esta solicitud es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 16806384.0 (Referencia: D15020EP01), presentada el 17 de noviembre de 2016.
Campo de la invención
La presente invención proporciona un sistema y un medio de almacenamiento legible por ordenador para una forma mejorada de salida binaural paramétrica cuando se utiliza opcionalmente el rastreo de cabeza.
Referencias
Gundry, K., "A New Matrix Decoder for Surround Sound," AES 19th International Conf., Schloss Elmau, Alemania, 2001.
Vinton, M., McGrath, D., Robinson, C., Brown, P., "Next generation surround decoding and up-mixing for consumer and professional applications", AES 57th International Conf., Hollywood, CA, EE.UU., 2015.
Wightman, F. L., y Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.
Norma ISO/IEC 14496-3:2009 - Tecnología de la información - Codificación de objetos audiovisuales - - Parte 3: Audio, 2009.
Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1 st Symposium on Applied perception in graphics and visualization. ACM, 2004.
Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., y Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (págs. 247-254). IEEE.
Van de Par, Steven, y Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.
Antecedentes de la invención
Cualquier discusión sobre la técnica anterior a lo largo de la especificación no debe considerarse de ninguna manera como una admisión de que dicha técnica es ampliamente conocida o forma parte del conocimiento general común en el campo.
La creación, codificación, distribución y reproducción de contenido de audio se basa tradicionalmente en canales. Es decir, se prevé un sistema de reproducción de destino específico para el contenido en todo el ecosistema de contenido. Ejemplos de tales sistemas de reproducción de destino son mono, estéreo, 5.1,7.1, 7.1.4 y similares. Si el contenido se va a reproducir en un sistema de reproducción diferente al previsto, se puede aplicar una mezcla descendente o ascendente. Por ejemplo, el contenido 5.1 se puede reproducir en un sistema de reproducción estéreo mediante el uso de ecuaciones específicas de mezcla descendente conocidas. Otro ejemplo es la reproducción de contenido estéreo a través de una configuración de altavoces 7.1, que puede comprender un llamado proceso de mezcla ascendente que podría o no ser guiado por la información presente en la señal estéreo, tal como la utilizada por los llamados codificadores matriciales como Dolby Pro Logic. Para guiar el proceso de mezcla ascendente, la información sobre la posición original de las señales antes de la mezcla descendente puede señalizarse implícitamente mediante la inclusión de relaciones de fase específicas en las ecuaciones de mezcla descendente, o dicho de otra manera, aplicando ecuaciones de mezcla descendente de valor complejo. Un ejemplo bien conocido de tal método de mezcla descendente utilizando coeficientes de mezcla descendente de valor complejo para contenido con altavoces colocados en dos dimensiones es LtRt (Vinton et al. 2015).
La señal de mezcla descendente (estéreo) resultante se puede reproducir en un sistema de altavoces estéreo, o se puede mezclar en configuraciones de altavoces con altavoces envolventes y/ o de altura. La ubicación prevista de la señal puede derivarse mediante un mezclador ascendente a partir de las relaciones de fase entre canales. Por ejemplo, en una representación estéreo LtRt, una señal que está fuera de fase (por ejemplo, tiene un coeficiente de correlación cruzada normalizado de forma de onda entre canales cerca de -1) idealmente debería ser reproducida por uno o más altavoces envolventes, mientras que un coeficiente de correlación positivo (cercano a 1) indica que la señal debe ser reproducida por los altavoces frente al oyente.
Se han desarrollado una variedad de algoritmos y estrategias de mezcla ascendente que difieren en sus estrategias para recrear una señal multicanal a partir de la mezcla descendente estéreo. En mezcladores ascendentes relativamente simples, el coeficiente de correlación cruzada normalizado de las señales de forma de onda estéreo se rastrea en función del tiempo, mientras que la(s) señal(es) son dirigidas a los altavoces delanteros o traseros dependiendo del valor del coeficiente de correlación cruzada normalizado. Este enfoque funciona bien para un contenido relativamente simple en el que solo un objeto auditivo está presente simultáneamente. Los mezcladores ascendentes más avanzados se basan en información estadística que se deriva de regiones de frecuencia específicas para controlar el flujo de señal desde la entrada estéreo a la salida multicanal (Gundry 2001, Vinton et al.
2015). Específicamente, un modelo de señal basado en un componente dirigido o dominante y una señal residual estéreo (difusa) se puede emplear en mosaicos individuales de tiempo/frecuencia como se describe en el documento EP1070438. Además de la estimación del componente dominante y las señales residuales, también se calcula un ángulo de dirección (en acimut, posiblemente aumentado con elevación), y posteriormente la señal del componente dominante se dirige a uno o más altavoces para reconstruir la posición (calculada) durante la reproducción.
El uso de codificadores matriciales y decodificadores/mezcladores ascendentes no se limita al contenido basado en canales. Los desarrollos recientes en la industria del audio se basan en objetos de audio en lugar de canales, en los que uno o más objetos consisten en una señal de audio y metadatos asociados que indican, entre otras cosas, su posición prevista en función del tiempo. Para dicho contenido de audio basado en objetos, también se pueden usar codificadores matriciales, como se describe en Vinton et al. 2015. En dicho sistema, las señales de los objetos se mezclan de forma descendente en una representación de señal estéreo con coeficientes de mezcla descendente que dependen de los metadatos posicionales del objeto.
La mezcla ascendente y la reproducción de contenido codificado en matriz no se limitan necesariamente a la reproducción en altavoces. La representación de un componente dirigido o dominante que consiste en una señal de componente dominante y una posición (prevista) permite la reproducción en auriculares mediante convolución con respuestas de impulso relacionadas con la cabeza (HRIR) (Wightman et al, 1989). Un esquema simple de un sistema que implementa este método se muestra 1 en la figura 1. La señal de entrada 2, en un formato codificado en matriz, se analiza primero 3 para determinar la dirección y magnitud de componente dominante. La señal de componente dominante se convoluciona 4, 5 por medio de un par de HRIRs derivados de una búsqueda 6 basada en la dirección del componente dominante, para calcular una señal de salida para la reproducción de auriculares 7 de modo que la señal de reproducción se perciba como proveniente de la dirección que fue determinada por la etapa de análisis de componente dominante 3. Este esquema puede aplicarse en señales de banda ancha así como en subbandas individuales, y puede aumentarse con procesamiento dedicado de señales residuales (o difusas) de varias maneras.
El uso de codificadores matriciales es muy adecuado para la distribución y reproducción en receptores AV, pero puede ser problemático para aplicaciones móviles que requieren bajas velocidades de transmisión de datos y bajo consumo de energía.
Independientemente de si se utiliza contenido basado en canales o en objetos, los codificadores y decodificadores de matriz dependen de relaciones de fase entre canales bastante precisas de las señales que se distribuyen desde el codificador de matriz al decodificador. En otras palabras, el formato de distribución debe en gran medida preservar la forma de onda. Tal dependencia de la preservación de la forma de onda puede ser problemática en condiciones restringidas de velocidad de bits, en las que los códecs de audio emplean métodos paramétricos en lugar de herramientas de codificación de forma de onda para obtener una mejor calidad de audio. Se conocen generalmente ejemplos de tales herramientas paramétricas que no conservan la forma de onda a menudo que se denominan replicación de banda espectral, estéreo paramétrico, codificación de audio espacial y similares, tal como se implementa en los códecs de audio MPEG-4 (ISO/ IEC 14496-3: 2009)
Como se expone en la sección anterior, el mezclador ascendente consiste en análisis y dirección (o convolución HRIR) de señales. Para dispositivos con alimentación, como los receptores AV, esto generalmente no causa problemas, pero para los dispositivos que funcionan con baterías, como teléfonos móviles y tabletas, la complejidad computacional y los requisitos de memoria correspondientes asociados con estos procesos a menudo no son deseables debido a su impacto negativo en la vida de la batería.
El análisis anteriormente mencionado normalmente también introduce latencia de audio adicional. Tal latencia de audio no es deseable porque (1) requiere demoras de video para mantener la sincronización de labios de audio y video que requiere una cantidad significativa de memoria y potencia de procesamiento, y (2) puede causar asincronía/ latencia entre los movimientos de la cabeza y la reproducción de audio en el caso del rastreo de cabeza. La mezcla descendente codificada en matriz también puede no sonar de forma óptima en altavoces estéreo o auriculares, debido a la posible presencia de componentes de señal fuertes fuera de fase.
Compendio de la invención
Un objeto de la invención es proporcionar una forma mejorada de salida binaural paramétrica.
Según un primer aspecto de la presente invención, se proporciona un sistema de acuerdo con la reivindicación 1. En algunas realizaciones, las operaciones incluyen además determinar una estimación de una mezcla residual que es la presentación de salida inicial menos una representación del componente de audio dominante o la estimación del mismo. Las operaciones también pueden incluir generar una mezcla binaural anecoica del canal o el audio de entrada basado en objetos, y determinar una estimación de una mezcla residual, en donde la estimación de la mezcla residual puede ser la mezcla binaural anecoica menos una representación del componente de audio dominante o la estimación de los mismos. Además, las operaciones pueden incluir la determinación de una serie de coeficientes de matriz residuales para mapear la presentación de salida inicial para la estimación de la mezcla residual.
La presentación de salida inicial puede comprender una presentación de auriculares o altavoces. El audio de entrada basado en canal u objeto puede estar en mosaico de tiempo y frecuencia y la etapa de codificación puede repetirse para una serie de etapas de tiempo y una serie de bandas de frecuencia. La presentación de salida inicial puede comprender una mezcla de altavoces estéreo.
Según un aspecto adicional de la presente invención, se proporciona un medio de almacenamiento legible por ordenador de acuerdo con la reivindicación 2.
La señal de audio codificada puede incluir además una serie de coeficientes de matriz residuales que representan una señal de audio residual y la etapa de reconstrucción puede comprender además (c1) aplicar los coeficientes de matriz residual a la presentación de salida inicial para reconstruir la estimación del componente residual.
En algunas realizaciones, la estimación del componente residual puede reconstruirse restando el componente dominante estimado binauralizado renderizado de la presentación de salida inicial. La etapa de renderizado puede incluir una rotación inicial del componente dominante estimado según una señal de entrada de rastreo de cabeza que indica la orientación de la cabeza de un oyente previsto.
Breve descripción de los dibujos
A continuación se describirán realizaciones de la invención, solo a modo de ejemplo, con referencia a los dibujos adjuntos en los que:
la figura 1 ilustra esquemáticamente un decodificador de auriculares para contenido codificado en matriz;
la figura 2 ilustra esquemáticamente un codificador;
la figura 3 es un diagrama de bloques esquemático del decodificador.
la figura 4 es una visualización detallada de un codificador; y
la figura 5 ilustra una forma del decodificador con más detalle.
Descripción detallada
Las realizaciones proporcionan un sistema para representar contenido de audio basado en objetos o canales que es (1) compatible con la reproducción estéreo, (2) permite la reproducción binaural incluyendo el rastreo de cabeza, (3) es de una baja complejidad de decodificador y (4) no se basa en, pero es compatible con la codificación matricial. Esto se logra combinando el análisis del lado del codificador de uno o más componentes dominantes (u objeto dominante o combinación de los mismos) incluyendo ponderaciones para predecir estos componentes dominantes a partir de una mezcla descendente, en combinación con parámetros adicionales que minimizan el error entre un renderizado binaural basado solo en los componentes dirigidos o dominantes, y la presentación binaural deseada del contenido completo.
En una realización, se proporciona un análisis del componente dominante (o componentes dominantes múltiples) en el codificador en lugar del decodificador/renderizador. La cadena de audio se aumenta con metadatos que indican la dirección del componente dominante e información sobre cómo se puede(n) obtener el/los componente(s) dominante(s) de una señal de mezcla descendente asociada.
La figura 2 ilustra una forma de un codificador 20 de una realización que no forma parte de la invención. El contenido 21 basado en objeto o canal se somete a un análisis 23 para determinar uno o más componentes dominantes. Este análisis puede tener lugar en función del tiempo y la frecuencia (suponiendo que el contenido de audio se divida en mosaicos de tiempo y subtítulos de frecuencia). El resultado de este proceso es una señal de componente dominante 26 (o múltiples señales de componente dominante), y la información asociada de posición (s) o dirección (s) 25. Posteriormente, se estiman 24 las ponderaciones y la salida 27 para permitir la reconstrucción de la señal de componente dominante (s) a partir de una mezcla descendente transmitida. Este generador de mezcla descendente 22 no necesariamente tiene que cumplir con las reglas de mezcla descendente LtRt, pero podría ser una mezcla descendente estándar ITU (LoRo) que utiliza coeficientes de mezcla descendente no negativos y de valor real. Por
último, la señal de mezcla descendente de salida 29, las ponderaciones 27 y los datos de posición 25 son empaquetados por un codificador de audio 28 y preparados para su distribución.
Volviendo ahora a la figura 3, se ilustra un decodificador correspondiente 30 de la realización preferida. El decodificador de audio reconstruye la señal de mezcla descendente. La señal es introducida 31 y desempaquetada por el decodificador de audio 32 en señal de mezcla descendente, ponderaciones y dirección de los componentes dominantes. Posteriormente, las ponderaciones de estimación de componentes dominantes se utilizan para reconstruir 34 el/los componente(s) dirigido(s), que son renderizados 36 usando datos de posición o dirección transmitidos. Los datos de posición pueden modificarse opcionalmente 33 dependiendo de la información de rotación y translación de la cabeza 38. Además, los componentes dominantes reconstruidos pueden sustraerse 35 de la mezcla descendente. Opcionalmente, hay una sustracción del/de los componente(s) dominante(s) dentro de la ruta de mezcla descendente, pero alternativamente, esta sustracción también puede ocurrir en el codificador, como se describe a continuación.
Para mejorar la eliminación o cancelación del componente dominante reconstruido en el sustractor 35, la salida del componente dominante puede representarse primero usando los datos de posición o dirección transmitidos antes de la sustracción. Esta etapa de representación opcional 39 se muestra en la figura 3.
Volviendo ahora a describir inicialmente el codificador con más detalle, la figura 4 muestra una forma de codificador 40 para procesar contenido de audio basado en objetos (por ejemplo, Dolby Atmos). Los objetos de audio se almacenan originalmente como objetos Atmos 41 y se dividen inicialmente en mosaicos de tiempo y frecuencia usando un banco 42 de filtro de espejo en cuadratura de valor complejo híbrido (HCQMF). Las señales de los objetos de entrada se pueden denotar por x i[n] cuando se omiten los índices de tiempo y frecuencia correspondientes; la posición correspondiente dentro del cuadro actual viene dada por el vector unitario pi, y el índice i se refiere al número de objeto, y el índice n se refiere al tiempo (por ejemplo, índice de muestra de subbanda). El objeto de entrada señala x i[n] son un ejemplo de audio de entrada basado en canal u objeto.
Una mezcla binaural anecoica, sub-banda Y (yl, yr) se crea 43 utilizando escalares de valor complejo Hl,i, Hr,i (por ejemplo, HRTF 48 de un toque) que representan la representación de sub-banda de los HRIRs correspondientes a la posi .ci .ó rn - pif:
Alternativamente, la mezcla binaural Y (yl, yr) puede crearse por convolución utilizando respuestas de impulso relacionadas con la cabeza (HRIRs). Además, una mezcla descendente estéreo z z (que incorpora a modo de ejemplo una presentación de salida inicial) se crea 44 utilizando coeficientes de ganancia de panoramización de amplitud gu.grj:
El vector de dirección del componente dominante pD (que encarna a modo de ejemplo una dirección o posición de componente de audio dominante) puede estimarse calculando el componente dominante 45 calculando inicialmente una suma ponderada de vectores de dirección de unidad para cada objeto:
con CTi la energía de la señal xi[n]:
y con (.)* siendo el operador de conjugación compleja.
La señal dominante/dirigida, d[n] (que encarna a modo de ejemplo un componente de audio dominante) viene dada por:
con -^(Pi'P2) una función que produce una ganancia que disminuye al aumentar la distancia entre los vectores unitarios (Pi-E). Por ejemplo, para crear un micrófono virtual con un patrón de direccionalidad basado en armónicos esféricos de orden superior, una implementación correspondería a:
con pi representando un vector de dirección unitario en un sistema de coordenadas bidimensional o tridimensional, (.) el operador del producto de puntos para dos vectores y con parámetros a modo de ejemplo a, b, c (por ejemplo a = b = 0,5; c = 1).
Las ponderaciones o coeficientes de predicción wl,d wr,d se calculan 46 y se usan para calcular 47 una señal dirigida estimada d[n]:
con ponderaciones wl,d wr,d minimizando el error medio cuadrático entre d[n] y d[n] dadas las señales de mezcla descendente zl,zr. Las ponderaciones wl,d wr,d son un ejemplo de factores de ponderación de componentes de audio dominantes para mapear la presentación de salida inicial (por ejemplo, zl,zr) al componente de audio dominante (por ejemplo, d[n]). Un método conocido para derivar estas ponderaciones es mediante la aplicación de un predictor mínimo de error medio cuadrático (MMSE):
con Rab la matriz de covarianza entre las señales para las señales a y las señales b, y e un parámetro de regularización.
Posteriormente, se puede restar 49 la estimación representada de la señal del componente dominante d [n] de la mezcla binaural anecoica y l, yr para crear una mezcla binaural residual y i, yr utilizando HRTF (HRIR) Hi,d , Hr,D 50 asociado con la dirección/ posición pD de la señal componente dominante d:
Por último, se calcula 51 otro conjunto de coeficientes de predicción o ponderaciones wi,j que permite la reconstrucción de la mezcla binaural residual yi, yr de la mezcla estéreo zi,zr utilizando estimaciones de error medio cuadrático mínimo:
con Rab la matriz de covarianza entre señales para representación a y representación b, y e un parámetro de regularización. Los coeficientes de predicción o ponderaciones wi,j son un ejemplo de coeficientes de matriz residual para mapear la presentación de salida inicial (por ejemplo, zi, zr) a la estimación de la mezcla binaural residual yi, yr. La expresión anterior puede estar sujeta a restricciones de nivel adicionales para superar cualquier pérdida de predicción. El codificador emite la siguiente información:
La mezcla estéreo zi,zr (que encarna a modo de ejemplo la presentación de salida inicial);
Los coeficientes para estimar el componente dominante wi,d wr,d (que encarna a modo de ejemplo los factores de ponderación de componentes de audio dominantes);
La posición o dirección del componente dominante po;
Y opcionalmente, las ponderaciones residuales wi,j (que encarnan a modo de ejemplo los coeficientes de la matriz residuales).
Aunque la descripción anterior se refiere al renderizado basado en un único componente dominante, en algunas realizaciones el codificador puede estar adaptado para detectar múltiples componentes dominantes, determinar ponderaciones y direcciones para cada uno de los múltiples componentes dominantes, renderizar y restar cada uno de los múltiples componentes dominantes de la mezcla binaural anecoica Y, y luego determinar las ponderaciones residuales después de que cada uno de los múltiples componentes dominantes haya sido sustraído de la mezcla binaural anecoica Y.
Decodificador/renderizador
La figura 5 ilustra una forma de decodificador/renderizador 60 con más detalle. El decodificador/renderizador 60 aplica un proceso destinado a reconstruir la mezcla binaural yl, yr para salida al oyente 71 desde la información de entrada desempaquetada zi,zr; w i,d w r,d; p d ; w ¡, j. Aquí, la mezcla estéreo zi,zr es un ejemplo de una primera representación de audio, y los coeficientes de predicción o ponderaciones wij y/o la dirección/posición pD de la señal de componente dominante d son ejemplos de datos adicionales de transformación de audio.
Inicialmente, la mezcla descendente estéreo está dividida en mosaicos de tiempo/frecuencia utilizando un banco de filtros adecuado o una transformación 61, como el banco de análisis 61 HCQMF. Otras transformaciones, como una transformada discreta de Fourier, una transformación de coseno o seno (modificada), banco de filtros de dominio de tiempo, o transformadas wavelet también se pueden aplicar igualmente. Posteriormente, la señal de componente dominante estimada d[n] se calcula 63 utilizando ponderaciones de coeficiente de predicción wl,d wr,d:
La señal de componente dominante calculada d [n] es un ejemplo de una señal auxiliar. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una o más señales auxiliares basadas en dicha primera representación de audio y datos de transformación recibidos.
Esta señal de componente dominante se procesa posteriormente 65 y se modifica 68 con HRTF 69 en función de los datos de posición/dirección transmitidos pd, posiblemente modificada (girada) en base a la información obtenida de un rastreador de cabeza 62. Finalmente, la salida binaural anecoica total consiste en la señal de componente dominante renderizada sumada 66 con los residuos reconstruidos yl, yr basados en las ponderaciones de coeficientes de predicción wi,j:
La salida binaural anecoica total es un ejemplo de una segunda representación de audio. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una segunda representación de audio que consiste en una combinación de dicha primera representación de audio y dichas señal(es) auxiliares, en las que una o más de dichas señal(es) auxiliares se han modificado en respuesta a dichos datos de orientación de la cabeza.
Debe observarse además que si se recibe información sobre más de una señal dominante, cada señal dominante se puede representar y agregar a la señal residual reconstruida.
Mientras no se aplique rotación o traslación de la cabeza, las señales de salida y, y- deben estar muy cerca (en términos de error cuadrático medio) de las señales binaurales de referencia yl, yr siempre y cuando
Propiedades clave
Como se puede observar de la formulación de la ecuación anterior, la operación efectiva para construir la presentación binaural anecoica a partir de la presentación estéreo consiste en una matriz 70 de 2x2, en la cual los coeficientes de la matriz dependen de la información transmitida w i,d w r,d; p d ; w ¡j y la rotación y / o traslación del rastreador de la cabeza. Esto indica que la complejidad del proceso es relativamente baja, ya que el análisis de los componentes dominantes se aplica en el codificador en lugar de en el decodificador.
Si no se estima un componente dominante (por ejemplo, wl,d,wr,d = 0), la solución descrita es equivalente a un método binaural paramétrico.
En los casos en que se desee excluir ciertos objetos de la rotación de cabeza / rastreo de cabeza, estos objetos se pueden excluir del (1) análisis de dirección del componente dominante y (2) la predicción de la señal del componente
dominante. Como resultado, estos objetos se convertirán de estéreo a binaural a través de los coeficientes w i,j y, por lo tanto, no se verán afectados por ninguna rotación o traslación de la cabeza.
En una línea de pensamiento similar, los objetos se pueden configurar en un modo de "paso a través", lo que significa que en la presentación binaural, estarán sujetos a un cribado de amplitud en lugar de una convolución HRIR. Esto se puede obtener simplemente usando ganancias de amplitud panorámica para los coeficientes H.,i en lugar de los HRTF de un toque o cualquier otro procesamiento binaural adecuado.
Extensiones
El decodificador 60 descrito con referencia a la figura 5 tiene una señal de salida que consta de una dirección de componente dominante representada más la señal de entrada formando una matriz mediante los coeficientes de matriz w i,j. Los últimos coeficientes se pueden derivar de varias maneras, por ejemplo:
1. Los coeficientes wi,j se puede determinar en el codificador mediante la reconstrucción paramétrica de las señales y l, yr. En otras palabras, en esta implementación, los coeficientes wi,j tienen el objetivo de la reconstrucción fiel de las señales binaurales y l, yr eso se habría obtenido al representar los objetos/canales de entrada originales de forma binaural; en otras palabras, los coeficientes wi,j son contenidos dirigidos. 2. Los coeficientes w i,j se pueden enviar desde el codificador al decodificador para representar HRTF para posiciones espaciales fijas, por ejemplo en ángulos de acimut de /- 45 grados. En otras palabras, la señal residual se procesa para simular la reproducción a través de dos altavoces virtuales en ciertos lugares. Como estos coeficientes que representan los HRTF se transmiten del codificador al decodificador, las ubicaciones de los altavoces virtuales pueden cambiar con el tiempo y la frecuencia. Si se emplea este enfoque utilizando altavoces virtuales estáticos para representar la señal residual, los coeficientes w i,j no necesitan transmisión del codificador al decodificador, y en su lugar pueden estar cableados en el decodificador. Una variación de este enfoque consistiría en un conjunto limitado de posiciones estáticas disponibles en el decodificador, con sus correspondientes coeficientes wi,j, y la selección de qué posición estática se usa para procesar la señal residual se señala desde el codificador al decodificador.
Las señales y l, yr pueden ser sometidas a un denominado mezclador ascendente, que reconstruye más de 2 señales por medio del análisis estadístico de estas señales en el decodificador, seguido de una renderización binaural de las señales mixtas ascendentes resultantes.
Los métodos descritos también se pueden aplicar en un sistema en el que la señal transmitida Z es una señal binaural. En ese caso particular, el decodificador 60 de la figura 5 permanece como está, mientras que el bloque etiquetado “Generar mezcla estéreo (LoRo)” 44 en la figura 4 debe reemplazarse por “Generar mezcla binaural anecoica”43 (figura 4) que es lo mismo que el bloque que produce el par de señales Y. Además, se pueden generar otras formas de mezclas según los requisitos.
Este enfoque puede ampliarse con métodos para reconstruir una o más señales de entrada FDN de la mezcla estéreo transmitida que consiste en un subconjunto específico de objetos o canales.
El enfoque se puede extender con múltiples componentes dominantes que se predicen a partir de la mezcla estéreo transmitida y se renderizan en el lado del decodificador. No existe una limitación fundamental de predecir solo un componente dominante para cada mosaico de tiempo/frecuencia. En particular, el número de componentes dominantes puede diferir en cada mosaico de tiempo/frecuencia.
Interpretación
Como se usa en este documento, a menos que se especifique lo contrario, el uso de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, simplemente indica que se están haciendo referencia a diferentes menciones de objetos similares, y no pretende implicar que los objetos así descritos deben estar en una secuencia dada, ya sea temporal, espacial, en clasificación o de cualquier otra manera.
En las reivindicaciones que siguen y en la descripción en este documento, cualquiera de los términos que comprende, compuesto por son términos abiertos que significan incluir al menos los elementos/características que siguen, pero sin excluir otros. Por lo tanto, el término que comprende, cuando se usa en las reivindicaciones, no debe interpretarse como limitativo de los medios o elementos o etapas enumerados a continuación. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no debe limitarse a dispositivos que consisten solo en los elementos A y B. Cualquiera de los términos incluyendo o que incluye como se usa en el presente documento también es un término abierto que también significa incluir al menos los elementos/características que siguen al término, pero sin excluir otros. Por lo tanto, incluir es sinónimo y significa comprender.
Como se usa en el presente documento, el término "a modo de ejemplo" se usa en el sentido de proporcionar ejemplos, en lugar de indicar calidad. Es decir, una "realización a modo de ejemplo" es una realización proporcionada como un ejemplo, en oposición a ser necesariamente una realización de calidad a modo de ejemplo.
En la descripción proporcionada en la presente memoria, se exponen numerosos detalles específicos. Sin embargo, se entiende que las realizaciones de la invención se pueden llevar a la práctica sin estos detalles específicos. En otros casos, los métodos, estructuras y técnicas bien conocidos no se han mostrado en detalle para no oscurecer la comprensión de esta descripción.
De manera similar, se debe observar que el término "acoplado", cuando se usa en las reivindicaciones, no debe interpretarse como limitado solo a conexiones directas. Se pueden usar los términos "acoplado" y "conectado", junto con sus derivados. Debe entenderse que estos términos no pretenden ser sinónimos entre sí. Por lo tanto, el alcance de la expresión de un dispositivo A acoplado a un dispositivo B no debe limitarse a dispositivos o sistemas en los que una salida del dispositivo A está directamente conectada a una entrada del dispositivo B. Esto significa que existe una ruta entre una salida de A y una entrada de B que puede ser una ruta que incluye otros dispositivos o medios. "Acoplado" puede significar que dos o más elementos están en contacto físico o eléctrico directo, o que dos o más elementos no están en contacto directo entre sí, pero aún cooperan o interactúan entre sí.
Por lo tanto, aunque se han descrito realizaciones de la invención, los expertos en la materia reconocerán que se pueden hacer otras modificaciones adicionales sin salir del alcance de la invención definido por las reivindicaciones adjuntas, y que está destinado a reivindicar que todos esos cambios y modificaciones están dentro del alcance de la invención.
Claims (2)
1. Un sistema configurado para codificar audio de entrada basado en un canal u objeto (21) para la reproducción, comprendiendo el sistema:
uno o más procesadores adaptados para realizar operaciones que comprenden:
renderizar el audio de entrada basado en un canal u objeto (21) en una presentación de salida inicial, comprendiendo la presentación de salida inicial una mezcla de altavoces estéreo;
determinar (23) una estimación de un componente de audio dominante (26) a partir del audio de entrada basado en un canal u objeto (21), incluyendo la determinación:
determinar (24) una serie de factores de ponderación de componente de audio dominante (27) para mapear la presentación de salida inicial en el componente de audio dominante; y
determinar la estimación de un componente de audio dominante (26) en base a los factores de ponderación de componente de audio dominante (27) y la presentación de salida inicial;
determinar una estimación de una dirección o posición (25) del componente de audio dominante); y
codificar la presentación de salida inicial, los factores de ponderación de componente de audio dominante (21), y al menos una de entre la dirección o posición de componente de audio dominante como la señal codificada para la reproducción.
2. Un medio de almacenamiento legible por ordenador que almacena instrucciones que, cuando se ejecutan por uno o más procesadores, hacen que el uno o más procesadores realicen operaciones que comprenden: renderizar el audio de entrada basado en canal u objeto (21) en una presentación de salida inicial que comprende una mezcla de altavoces estéreo;
determinar (23) una estimación de un componente de audio dominante (26) a partir del audio de entrada basado en un canal u objeto (21), incluyendo la determinación:
determinar (24) una serie de factores de ponderación de componente de audio dominante (27) para mapear la presentación de salida inicial en el componente de audio dominante; y
determinar la estimación de un componente de audio dominante (26) en base a los factores de ponderación de componente de audio dominante (27) y la presentación de salida inicial;
determinar una estimación de una dirección o posición (25) del componente de audio dominante; y
codificar la presentación de salida inicial, los factores de ponderación de componente de audio dominante (21), y al menos una de entre la dirección o posición de componente de audio dominante como la señal codificada para la reproducción.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562256462P | 2015-11-17 | 2015-11-17 | |
EP15199854 | 2015-12-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2950001T3 true ES2950001T3 (es) | 2023-10-04 |
Family
ID=55027285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES20157296T Active ES2950001T3 (es) | 2015-11-17 | 2016-11-17 | Rastreo de cabeza para sistema de salida binaural paramétrica |
Country Status (15)
Country | Link |
---|---|
US (2) | US10362431B2 (es) |
EP (3) | EP3378239B1 (es) |
JP (1) | JP6740347B2 (es) |
KR (2) | KR102586089B1 (es) |
CN (2) | CN108476366B (es) |
AU (2) | AU2016355673B2 (es) |
BR (2) | BR122020025280B1 (es) |
CA (2) | CA3005113C (es) |
CL (1) | CL2018001287A1 (es) |
ES (1) | ES2950001T3 (es) |
IL (1) | IL259348B (es) |
MY (1) | MY188581A (es) |
SG (1) | SG11201803909TA (es) |
UA (1) | UA125582C2 (es) |
WO (1) | WO2017087650A1 (es) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017035281A2 (en) | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
WO2018152004A1 (en) * | 2017-02-15 | 2018-08-23 | Pcms Holdings, Inc. | Contextual filtering for immersive audio |
CN111052770B (zh) * | 2017-09-29 | 2021-12-03 | 苹果公司 | 空间音频下混频的方法及系统 |
US11004457B2 (en) * | 2017-10-18 | 2021-05-11 | Htc Corporation | Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof |
EP3704875B1 (en) | 2017-10-30 | 2023-05-31 | Dolby Laboratories Licensing Corporation | Virtual rendering of object based audio over an arbitrary set of loudspeakers |
US11032662B2 (en) | 2018-05-30 | 2021-06-08 | Qualcomm Incorporated | Adjusting audio characteristics for augmented reality |
TWI683582B (zh) * | 2018-09-06 | 2020-01-21 | 宏碁股份有限公司 | 增益動態調節之音效控制方法及音效輸出裝置 |
CN111615044B (zh) * | 2019-02-25 | 2021-09-14 | 宏碁股份有限公司 | 声音信号的能量分布修正方法及其系统 |
CN113678473A (zh) * | 2019-06-12 | 2021-11-19 | 谷歌有限责任公司 | 三维音频源空间化 |
US11076257B1 (en) * | 2019-06-14 | 2021-07-27 | EmbodyVR, Inc. | Converting ambisonic audio to binaural audio |
DE112021004444T5 (de) * | 2020-08-27 | 2023-06-22 | Apple Inc. | Stereobasierte immersive codierung (stic) |
US11750745B2 (en) * | 2020-11-18 | 2023-09-05 | Kelly Properties, Llc | Processing and distribution of audio signals in a multi-party conferencing environment |
EP4292086A1 (en) | 2021-02-11 | 2023-12-20 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
CN113035209B (zh) * | 2021-02-25 | 2023-07-04 | 北京达佳互联信息技术有限公司 | 三维音频获取方法和三维音频获取装置 |
US20240163629A1 (en) * | 2022-11-11 | 2024-05-16 | Bang & Olufsen, A/S | Adaptive sound scene rotation |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPO316296A0 (en) * | 1996-10-23 | 1996-11-14 | Lake Dsp Pty Limited | Dithered binaural system |
WO1999014983A1 (en) | 1997-09-16 | 1999-03-25 | Lake Dsp Pty. Limited | Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener |
JPH11220797A (ja) * | 1998-02-03 | 1999-08-10 | Sony Corp | ヘッドホン装置 |
JP4088725B2 (ja) * | 1998-03-30 | 2008-05-21 | ソニー株式会社 | オーディオ再生装置 |
US6016473A (en) * | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
US6839438B1 (en) | 1999-08-31 | 2005-01-04 | Creative Technology, Ltd | Positional audio rendering |
JP5306565B2 (ja) | 1999-09-29 | 2013-10-02 | ヤマハ株式会社 | 音響指向方法および装置 |
US7660424B2 (en) | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
US7076204B2 (en) | 2001-10-30 | 2006-07-11 | Unwired Technology Llc | Multiple channel wireless communication system |
GB0419346D0 (en) * | 2004-09-01 | 2004-09-29 | Smyth Stephen M F | Method and apparatus for improved headphone virtualisation |
JP2006270649A (ja) * | 2005-03-24 | 2006-10-05 | Ntt Docomo Inc | 音声・音響信号処理装置およびその方法 |
WO2007080212A1 (en) | 2006-01-09 | 2007-07-19 | Nokia Corporation | Controlling the decoding of binaural audio signals |
US20090052703A1 (en) | 2006-04-04 | 2009-02-26 | Aalborg Universitet | System and Method Tracking the Position of a Listener and Transmitting Binaural Audio Data to the Listener |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US7876903B2 (en) | 2006-07-07 | 2011-01-25 | Harris Corporation | Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system |
WO2008039038A1 (en) | 2006-09-29 | 2008-04-03 | Electronics And Telecommunications Research Institute | Apparatus and method for coding and decoding multi-object audio signal with various channel |
DE602007013415D1 (de) | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
ES2452348T3 (es) | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
CN101889307B (zh) * | 2007-10-04 | 2013-01-23 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
KR101567461B1 (ko) * | 2009-11-16 | 2015-11-09 | 삼성전자주식회사 | 다채널 사운드 신호 생성 장치 |
US8587631B2 (en) | 2010-06-29 | 2013-11-19 | Alcatel Lucent | Facilitating communications using a portable communication device and directed sound output |
US8767968B2 (en) | 2010-10-13 | 2014-07-01 | Microsoft Corporation | System and method for high-precision 3-dimensional audio for augmented reality |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2904817A4 (en) | 2012-10-01 | 2016-06-15 | Nokia Technologies Oy | APPARATUS AND METHOD FOR REPRODUCING RECORDED AUDIO DATA WITH CORRECT SPACE ORIENTATION |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP3005344A4 (en) | 2013-05-31 | 2017-02-22 | Nokia Technologies OY | An audio scene apparatus |
ES2755349T3 (es) * | 2013-10-31 | 2020-04-22 | Dolby Laboratories Licensing Corp | Renderización binaural para auriculares utilizando procesamiento de metadatos |
EP3251116A4 (en) * | 2015-01-30 | 2018-07-25 | DTS, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
WO2017035281A2 (en) | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
-
2016
- 2016-11-17 CN CN201680075037.8A patent/CN108476366B/zh active Active
- 2016-11-17 KR KR1020187014045A patent/KR102586089B1/ko active IP Right Grant
- 2016-11-17 EP EP16806384.0A patent/EP3378239B1/en active Active
- 2016-11-17 BR BR122020025280-4A patent/BR122020025280B1/pt active IP Right Grant
- 2016-11-17 MY MYPI2018701852A patent/MY188581A/en unknown
- 2016-11-17 BR BR112018010073-0A patent/BR112018010073B1/pt active IP Right Grant
- 2016-11-17 EP EP20157296.3A patent/EP3716653B1/en active Active
- 2016-11-17 ES ES20157296T patent/ES2950001T3/es active Active
- 2016-11-17 CA CA3005113A patent/CA3005113C/en active Active
- 2016-11-17 SG SG11201803909TA patent/SG11201803909TA/en unknown
- 2016-11-17 US US15/777,058 patent/US10362431B2/en active Active
- 2016-11-17 CA CA3080981A patent/CA3080981C/en active Active
- 2016-11-17 JP JP2018525387A patent/JP6740347B2/ja active Active
- 2016-11-17 CN CN202110229741.7A patent/CN113038354A/zh active Pending
- 2016-11-17 UA UAA201806682A patent/UA125582C2/uk unknown
- 2016-11-17 KR KR1020237033651A patent/KR20230145232A/ko not_active Application Discontinuation
- 2016-11-17 AU AU2016355673A patent/AU2016355673B2/en active Active
- 2016-11-17 EP EP23176131.3A patent/EP4236375A3/en active Pending
- 2016-11-17 WO PCT/US2016/062497 patent/WO2017087650A1/en active Application Filing
-
2018
- 2018-05-11 CL CL2018001287A patent/CL2018001287A1/es unknown
- 2018-05-14 IL IL259348A patent/IL259348B/en active IP Right Grant
-
2019
- 2019-07-18 US US16/516,121 patent/US10893375B2/en active Active
-
2020
- 2020-01-22 AU AU2020200448A patent/AU2020200448B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2950001T3 (es) | Rastreo de cabeza para sistema de salida binaural paramétrica | |
JP7254137B2 (ja) | 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 | |
JP5587551B2 (ja) | オーディオ符号化 | |
US20150248891A1 (en) | Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup | |
Delikaris-Manias et al. | Parametric binaural rendering utilizing compact microphone arrays | |
ES2779603T3 (es) | Sistema y método de salida binaural paramétrico | |
Takanen et al. | Binaural assessment of parametrically coded spatial audio signals | |
RU2818687C2 (ru) | Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала | |
McCormack | Real-time microphone array processing for sound-field analysis and perceptually motivated reproduction |