ES2950001T3 - Rastreo de cabeza para sistema de salida binaural paramétrica - Google Patents

Rastreo de cabeza para sistema de salida binaural paramétrica Download PDF

Info

Publication number
ES2950001T3
ES2950001T3 ES20157296T ES20157296T ES2950001T3 ES 2950001 T3 ES2950001 T3 ES 2950001T3 ES 20157296 T ES20157296 T ES 20157296T ES 20157296 T ES20157296 T ES 20157296T ES 2950001 T3 ES2950001 T3 ES 2950001T3
Authority
ES
Spain
Prior art keywords
dominant
audio component
dominant audio
initial output
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20157296T
Other languages
English (en)
Inventor
Dirk Jeroen Breebaart
Kristofer Kjoerling
Mark F Davis
David Matthew Cooper
David S Mcgrath
Harald Mundt
Rhonda Wilson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2950001T3 publication Critical patent/ES2950001T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Golf Clubs (AREA)
  • Massaging Devices (AREA)
  • Stereophonic Arrangements (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Un método para codificar audio de entrada basado en canal u objeto para reproducción, incluyendo el método los pasos de: (a) representar inicialmente el audio de entrada basado en canal u objeto en una presentación de salida inicial; (b) determinar una estimación del componente de audio dominante a partir del audio de entrada basado en canal u objeto y determinar una serie de factores de ponderación del componente de audio dominante para mapear la presentación de salida inicial en el componente de audio dominante; (c) determinar una estimación de la dirección o posición del componente de audio dominante; y (d) codificar la presentación de salida inicial, los factores de ponderación del componente de audio dominante, la dirección o posición del componente de audio dominante como la señal codificada para reproducción. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Rastreo de cabeza para sistema de salida binaural paramétrica
Referencia cruzada a solicitud relacionada
Esta solicitud es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 16806384.0 (Referencia: D15020EP01), presentada el 17 de noviembre de 2016.
Campo de la invención
La presente invención proporciona un sistema y un medio de almacenamiento legible por ordenador para una forma mejorada de salida binaural paramétrica cuando se utiliza opcionalmente el rastreo de cabeza.
Referencias
Gundry, K., "A New Matrix Decoder for Surround Sound," AES 19th International Conf., Schloss Elmau, Alemania, 2001.
Vinton, M., McGrath, D., Robinson, C., Brown, P., "Next generation surround decoding and up-mixing for consumer and professional applications", AES 57th International Conf., Hollywood, CA, EE.UU., 2015.
Wightman, F. L., y Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.
Norma ISO/IEC 14496-3:2009 - Tecnología de la información - Codificación de objetos audiovisuales - - Parte 3: Audio, 2009.
Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1 st Symposium on Applied perception in graphics and visualization. ACM, 2004.
Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., y Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (págs. 247-254). IEEE.
Van de Par, Steven, y Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.
Antecedentes de la invención
Cualquier discusión sobre la técnica anterior a lo largo de la especificación no debe considerarse de ninguna manera como una admisión de que dicha técnica es ampliamente conocida o forma parte del conocimiento general común en el campo.
La creación, codificación, distribución y reproducción de contenido de audio se basa tradicionalmente en canales. Es decir, se prevé un sistema de reproducción de destino específico para el contenido en todo el ecosistema de contenido. Ejemplos de tales sistemas de reproducción de destino son mono, estéreo, 5.1,7.1, 7.1.4 y similares. Si el contenido se va a reproducir en un sistema de reproducción diferente al previsto, se puede aplicar una mezcla descendente o ascendente. Por ejemplo, el contenido 5.1 se puede reproducir en un sistema de reproducción estéreo mediante el uso de ecuaciones específicas de mezcla descendente conocidas. Otro ejemplo es la reproducción de contenido estéreo a través de una configuración de altavoces 7.1, que puede comprender un llamado proceso de mezcla ascendente que podría o no ser guiado por la información presente en la señal estéreo, tal como la utilizada por los llamados codificadores matriciales como Dolby Pro Logic. Para guiar el proceso de mezcla ascendente, la información sobre la posición original de las señales antes de la mezcla descendente puede señalizarse implícitamente mediante la inclusión de relaciones de fase específicas en las ecuaciones de mezcla descendente, o dicho de otra manera, aplicando ecuaciones de mezcla descendente de valor complejo. Un ejemplo bien conocido de tal método de mezcla descendente utilizando coeficientes de mezcla descendente de valor complejo para contenido con altavoces colocados en dos dimensiones es LtRt (Vinton et al. 2015).
La señal de mezcla descendente (estéreo) resultante se puede reproducir en un sistema de altavoces estéreo, o se puede mezclar en configuraciones de altavoces con altavoces envolventes y/ o de altura. La ubicación prevista de la señal puede derivarse mediante un mezclador ascendente a partir de las relaciones de fase entre canales. Por ejemplo, en una representación estéreo LtRt, una señal que está fuera de fase (por ejemplo, tiene un coeficiente de correlación cruzada normalizado de forma de onda entre canales cerca de -1) idealmente debería ser reproducida por uno o más altavoces envolventes, mientras que un coeficiente de correlación positivo (cercano a 1) indica que la señal debe ser reproducida por los altavoces frente al oyente.
Se han desarrollado una variedad de algoritmos y estrategias de mezcla ascendente que difieren en sus estrategias para recrear una señal multicanal a partir de la mezcla descendente estéreo. En mezcladores ascendentes relativamente simples, el coeficiente de correlación cruzada normalizado de las señales de forma de onda estéreo se rastrea en función del tiempo, mientras que la(s) señal(es) son dirigidas a los altavoces delanteros o traseros dependiendo del valor del coeficiente de correlación cruzada normalizado. Este enfoque funciona bien para un contenido relativamente simple en el que solo un objeto auditivo está presente simultáneamente. Los mezcladores ascendentes más avanzados se basan en información estadística que se deriva de regiones de frecuencia específicas para controlar el flujo de señal desde la entrada estéreo a la salida multicanal (Gundry 2001, Vinton et al.
2015). Específicamente, un modelo de señal basado en un componente dirigido o dominante y una señal residual estéreo (difusa) se puede emplear en mosaicos individuales de tiempo/frecuencia como se describe en el documento EP1070438. Además de la estimación del componente dominante y las señales residuales, también se calcula un ángulo de dirección (en acimut, posiblemente aumentado con elevación), y posteriormente la señal del componente dominante se dirige a uno o más altavoces para reconstruir la posición (calculada) durante la reproducción.
El uso de codificadores matriciales y decodificadores/mezcladores ascendentes no se limita al contenido basado en canales. Los desarrollos recientes en la industria del audio se basan en objetos de audio en lugar de canales, en los que uno o más objetos consisten en una señal de audio y metadatos asociados que indican, entre otras cosas, su posición prevista en función del tiempo. Para dicho contenido de audio basado en objetos, también se pueden usar codificadores matriciales, como se describe en Vinton et al. 2015. En dicho sistema, las señales de los objetos se mezclan de forma descendente en una representación de señal estéreo con coeficientes de mezcla descendente que dependen de los metadatos posicionales del objeto.
La mezcla ascendente y la reproducción de contenido codificado en matriz no se limitan necesariamente a la reproducción en altavoces. La representación de un componente dirigido o dominante que consiste en una señal de componente dominante y una posición (prevista) permite la reproducción en auriculares mediante convolución con respuestas de impulso relacionadas con la cabeza (HRIR) (Wightman et al, 1989). Un esquema simple de un sistema que implementa este método se muestra 1 en la figura 1. La señal de entrada 2, en un formato codificado en matriz, se analiza primero 3 para determinar la dirección y magnitud de componente dominante. La señal de componente dominante se convoluciona 4, 5 por medio de un par de HRIRs derivados de una búsqueda 6 basada en la dirección del componente dominante, para calcular una señal de salida para la reproducción de auriculares 7 de modo que la señal de reproducción se perciba como proveniente de la dirección que fue determinada por la etapa de análisis de componente dominante 3. Este esquema puede aplicarse en señales de banda ancha así como en subbandas individuales, y puede aumentarse con procesamiento dedicado de señales residuales (o difusas) de varias maneras.
El uso de codificadores matriciales es muy adecuado para la distribución y reproducción en receptores AV, pero puede ser problemático para aplicaciones móviles que requieren bajas velocidades de transmisión de datos y bajo consumo de energía.
Independientemente de si se utiliza contenido basado en canales o en objetos, los codificadores y decodificadores de matriz dependen de relaciones de fase entre canales bastante precisas de las señales que se distribuyen desde el codificador de matriz al decodificador. En otras palabras, el formato de distribución debe en gran medida preservar la forma de onda. Tal dependencia de la preservación de la forma de onda puede ser problemática en condiciones restringidas de velocidad de bits, en las que los códecs de audio emplean métodos paramétricos en lugar de herramientas de codificación de forma de onda para obtener una mejor calidad de audio. Se conocen generalmente ejemplos de tales herramientas paramétricas que no conservan la forma de onda a menudo que se denominan replicación de banda espectral, estéreo paramétrico, codificación de audio espacial y similares, tal como se implementa en los códecs de audio MPEG-4 (ISO/ IEC 14496-3: 2009)
Como se expone en la sección anterior, el mezclador ascendente consiste en análisis y dirección (o convolución HRIR) de señales. Para dispositivos con alimentación, como los receptores AV, esto generalmente no causa problemas, pero para los dispositivos que funcionan con baterías, como teléfonos móviles y tabletas, la complejidad computacional y los requisitos de memoria correspondientes asociados con estos procesos a menudo no son deseables debido a su impacto negativo en la vida de la batería.
El análisis anteriormente mencionado normalmente también introduce latencia de audio adicional. Tal latencia de audio no es deseable porque (1) requiere demoras de video para mantener la sincronización de labios de audio y video que requiere una cantidad significativa de memoria y potencia de procesamiento, y (2) puede causar asincronía/ latencia entre los movimientos de la cabeza y la reproducción de audio en el caso del rastreo de cabeza. La mezcla descendente codificada en matriz también puede no sonar de forma óptima en altavoces estéreo o auriculares, debido a la posible presencia de componentes de señal fuertes fuera de fase.
Compendio de la invención
Un objeto de la invención es proporcionar una forma mejorada de salida binaural paramétrica.
Según un primer aspecto de la presente invención, se proporciona un sistema de acuerdo con la reivindicación 1. En algunas realizaciones, las operaciones incluyen además determinar una estimación de una mezcla residual que es la presentación de salida inicial menos una representación del componente de audio dominante o la estimación del mismo. Las operaciones también pueden incluir generar una mezcla binaural anecoica del canal o el audio de entrada basado en objetos, y determinar una estimación de una mezcla residual, en donde la estimación de la mezcla residual puede ser la mezcla binaural anecoica menos una representación del componente de audio dominante o la estimación de los mismos. Además, las operaciones pueden incluir la determinación de una serie de coeficientes de matriz residuales para mapear la presentación de salida inicial para la estimación de la mezcla residual.
La presentación de salida inicial puede comprender una presentación de auriculares o altavoces. El audio de entrada basado en canal u objeto puede estar en mosaico de tiempo y frecuencia y la etapa de codificación puede repetirse para una serie de etapas de tiempo y una serie de bandas de frecuencia. La presentación de salida inicial puede comprender una mezcla de altavoces estéreo.
Según un aspecto adicional de la presente invención, se proporciona un medio de almacenamiento legible por ordenador de acuerdo con la reivindicación 2.
La señal de audio codificada puede incluir además una serie de coeficientes de matriz residuales que representan una señal de audio residual y la etapa de reconstrucción puede comprender además (c1) aplicar los coeficientes de matriz residual a la presentación de salida inicial para reconstruir la estimación del componente residual.
En algunas realizaciones, la estimación del componente residual puede reconstruirse restando el componente dominante estimado binauralizado renderizado de la presentación de salida inicial. La etapa de renderizado puede incluir una rotación inicial del componente dominante estimado según una señal de entrada de rastreo de cabeza que indica la orientación de la cabeza de un oyente previsto.
Breve descripción de los dibujos
A continuación se describirán realizaciones de la invención, solo a modo de ejemplo, con referencia a los dibujos adjuntos en los que:
la figura 1 ilustra esquemáticamente un decodificador de auriculares para contenido codificado en matriz;
la figura 2 ilustra esquemáticamente un codificador;
la figura 3 es un diagrama de bloques esquemático del decodificador.
la figura 4 es una visualización detallada de un codificador; y
la figura 5 ilustra una forma del decodificador con más detalle.
Descripción detallada
Las realizaciones proporcionan un sistema para representar contenido de audio basado en objetos o canales que es (1) compatible con la reproducción estéreo, (2) permite la reproducción binaural incluyendo el rastreo de cabeza, (3) es de una baja complejidad de decodificador y (4) no se basa en, pero es compatible con la codificación matricial. Esto se logra combinando el análisis del lado del codificador de uno o más componentes dominantes (u objeto dominante o combinación de los mismos) incluyendo ponderaciones para predecir estos componentes dominantes a partir de una mezcla descendente, en combinación con parámetros adicionales que minimizan el error entre un renderizado binaural basado solo en los componentes dirigidos o dominantes, y la presentación binaural deseada del contenido completo.
En una realización, se proporciona un análisis del componente dominante (o componentes dominantes múltiples) en el codificador en lugar del decodificador/renderizador. La cadena de audio se aumenta con metadatos que indican la dirección del componente dominante e información sobre cómo se puede(n) obtener el/los componente(s) dominante(s) de una señal de mezcla descendente asociada.
La figura 2 ilustra una forma de un codificador 20 de una realización que no forma parte de la invención. El contenido 21 basado en objeto o canal se somete a un análisis 23 para determinar uno o más componentes dominantes. Este análisis puede tener lugar en función del tiempo y la frecuencia (suponiendo que el contenido de audio se divida en mosaicos de tiempo y subtítulos de frecuencia). El resultado de este proceso es una señal de componente dominante 26 (o múltiples señales de componente dominante), y la información asociada de posición (s) o dirección (s) 25. Posteriormente, se estiman 24 las ponderaciones y la salida 27 para permitir la reconstrucción de la señal de componente dominante (s) a partir de una mezcla descendente transmitida. Este generador de mezcla descendente 22 no necesariamente tiene que cumplir con las reglas de mezcla descendente LtRt, pero podría ser una mezcla descendente estándar ITU (LoRo) que utiliza coeficientes de mezcla descendente no negativos y de valor real. Por último, la señal de mezcla descendente de salida 29, las ponderaciones 27 y los datos de posición 25 son empaquetados por un codificador de audio 28 y preparados para su distribución.
Volviendo ahora a la figura 3, se ilustra un decodificador correspondiente 30 de la realización preferida. El decodificador de audio reconstruye la señal de mezcla descendente. La señal es introducida 31 y desempaquetada por el decodificador de audio 32 en señal de mezcla descendente, ponderaciones y dirección de los componentes dominantes. Posteriormente, las ponderaciones de estimación de componentes dominantes se utilizan para reconstruir 34 el/los componente(s) dirigido(s), que son renderizados 36 usando datos de posición o dirección transmitidos. Los datos de posición pueden modificarse opcionalmente 33 dependiendo de la información de rotación y translación de la cabeza 38. Además, los componentes dominantes reconstruidos pueden sustraerse 35 de la mezcla descendente. Opcionalmente, hay una sustracción del/de los componente(s) dominante(s) dentro de la ruta de mezcla descendente, pero alternativamente, esta sustracción también puede ocurrir en el codificador, como se describe a continuación.
Para mejorar la eliminación o cancelación del componente dominante reconstruido en el sustractor 35, la salida del componente dominante puede representarse primero usando los datos de posición o dirección transmitidos antes de la sustracción. Esta etapa de representación opcional 39 se muestra en la figura 3.
Volviendo ahora a describir inicialmente el codificador con más detalle, la figura 4 muestra una forma de codificador 40 para procesar contenido de audio basado en objetos (por ejemplo, Dolby Atmos). Los objetos de audio se almacenan originalmente como objetos Atmos 41 y se dividen inicialmente en mosaicos de tiempo y frecuencia usando un banco 42 de filtro de espejo en cuadratura de valor complejo híbrido (HCQMF). Las señales de los objetos de entrada se pueden denotar por x i[n] cuando se omiten los índices de tiempo y frecuencia correspondientes; la posición correspondiente dentro del cuadro actual viene dada por el vector unitario pi, y el índice i se refiere al número de objeto, y el índice n se refiere al tiempo (por ejemplo, índice de muestra de subbanda). El objeto de entrada señala x i[n] son un ejemplo de audio de entrada basado en canal u objeto.
Una mezcla binaural anecoica, sub-banda Y (yl, yr) se crea 43 utilizando escalares de valor complejo Hl,i, Hr,i (por ejemplo, HRTF 48 de un toque) que representan la representación de sub-banda de los HRIRs correspondientes a la posi .ci .ó rn - pif:
Figure imgf000005_0003
Alternativamente, la mezcla binaural Y (yl, yr) puede crearse por convolución utilizando respuestas de impulso relacionadas con la cabeza (HRIRs). Además, una mezcla descendente estéreo z z (que incorpora a modo de ejemplo una presentación de salida inicial) se crea 44 utilizando coeficientes de ganancia de panoramización de amplitud gu.grj:
Figure imgf000005_0004
El vector de dirección del componente dominante pD (que encarna a modo de ejemplo una dirección o posición de componente de audio dominante) puede estimarse calculando el componente dominante 45 calculando inicialmente una suma ponderada de vectores de dirección de unidad para cada objeto:
Figure imgf000005_0001
con CTi la energía de la señal xi[n]:
Figure imgf000005_0002
y con (.)* siendo el operador de conjugación compleja.
La señal dominante/dirigida, d[n] (que encarna a modo de ejemplo un componente de audio dominante) viene dada por:
Figure imgf000006_0001
con -^(Pi'P2) una función que produce una ganancia que disminuye al aumentar la distancia entre los vectores unitarios (Pi-E). Por ejemplo, para crear un micrófono virtual con un patrón de direccionalidad basado en armónicos esféricos de orden superior, una implementación correspondería a:
Figure imgf000006_0004
con pi representando un vector de dirección unitario en un sistema de coordenadas bidimensional o tridimensional, (.) el operador del producto de puntos para dos vectores y con parámetros a modo de ejemplo a, b, c (por ejemplo a = b = 0,5; c = 1).
Las ponderaciones o coeficientes de predicción wl,d wr,d se calculan 46 y se usan para calcular 47 una señal dirigida estimada d[n]:
Figure imgf000006_0002
con ponderaciones wl,d wr,d minimizando el error medio cuadrático entre d[n] y d[n] dadas las señales de mezcla descendente zl,zr. Las ponderaciones wl,d wr,d son un ejemplo de factores de ponderación de componentes de audio dominantes para mapear la presentación de salida inicial (por ejemplo, zl,zr) al componente de audio dominante (por ejemplo, d[n]). Un método conocido para derivar estas ponderaciones es mediante la aplicación de un predictor mínimo de error medio cuadrático (MMSE):
Figure imgf000006_0003
con Rab la matriz de covarianza entre las señales para las señales a y las señales b, y e un parámetro de regularización.
Posteriormente, se puede restar 49 la estimación representada de la señal del componente dominante d [n] de la mezcla binaural anecoica y l, yr para crear una mezcla binaural residual y i, yr utilizando HRTF (HRIR) Hi,d , Hr,D 50 asociado con la dirección/ posición pD de la señal componente dominante d:
Figure imgf000006_0005
Por último, se calcula 51 otro conjunto de coeficientes de predicción o ponderaciones wi,j que permite la reconstrucción de la mezcla binaural residual yi, yr de la mezcla estéreo zi,zr utilizando estimaciones de error medio cuadrático mínimo:
Figure imgf000006_0006
con Rab la matriz de covarianza entre señales para representación a y representación b, y e un parámetro de regularización. Los coeficientes de predicción o ponderaciones wi,j son un ejemplo de coeficientes de matriz residual para mapear la presentación de salida inicial (por ejemplo, zi, zr) a la estimación de la mezcla binaural residual yi, yr. La expresión anterior puede estar sujeta a restricciones de nivel adicionales para superar cualquier pérdida de predicción. El codificador emite la siguiente información:
La mezcla estéreo zi,zr (que encarna a modo de ejemplo la presentación de salida inicial);
Los coeficientes para estimar el componente dominante wi,d wr,d (que encarna a modo de ejemplo los factores de ponderación de componentes de audio dominantes);
La posición o dirección del componente dominante po;
Y opcionalmente, las ponderaciones residuales wi,j (que encarnan a modo de ejemplo los coeficientes de la matriz residuales).
Aunque la descripción anterior se refiere al renderizado basado en un único componente dominante, en algunas realizaciones el codificador puede estar adaptado para detectar múltiples componentes dominantes, determinar ponderaciones y direcciones para cada uno de los múltiples componentes dominantes, renderizar y restar cada uno de los múltiples componentes dominantes de la mezcla binaural anecoica Y, y luego determinar las ponderaciones residuales después de que cada uno de los múltiples componentes dominantes haya sido sustraído de la mezcla binaural anecoica Y.
Decodificador/renderizador
La figura 5 ilustra una forma de decodificador/renderizador 60 con más detalle. El decodificador/renderizador 60 aplica un proceso destinado a reconstruir la mezcla binaural yl, yr para salida al oyente 71 desde la información de entrada desempaquetada zi,zr; w i,d w r,d; p d ; w ¡, j. Aquí, la mezcla estéreo zi,zr es un ejemplo de una primera representación de audio, y los coeficientes de predicción o ponderaciones wij y/o la dirección/posición pD de la señal de componente dominante d son ejemplos de datos adicionales de transformación de audio.
Inicialmente, la mezcla descendente estéreo está dividida en mosaicos de tiempo/frecuencia utilizando un banco de filtros adecuado o una transformación 61, como el banco de análisis 61 HCQMF. Otras transformaciones, como una transformada discreta de Fourier, una transformación de coseno o seno (modificada), banco de filtros de dominio de tiempo, o transformadas wavelet también se pueden aplicar igualmente. Posteriormente, la señal de componente dominante estimada d[n] se calcula 63 utilizando ponderaciones de coeficiente de predicción wl,d wr,d:
Figure imgf000007_0001
La señal de componente dominante calculada d [n] es un ejemplo de una señal auxiliar. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una o más señales auxiliares basadas en dicha primera representación de audio y datos de transformación recibidos.
Esta señal de componente dominante se procesa posteriormente 65 y se modifica 68 con HRTF 69 en función de los datos de posición/dirección transmitidos pd, posiblemente modificada (girada) en base a la información obtenida de un rastreador de cabeza 62. Finalmente, la salida binaural anecoica total consiste en la señal de componente dominante renderizada sumada 66 con los residuos reconstruidos yl, yr basados en las ponderaciones de coeficientes de predicción wi,j:
Figure imgf000007_0003
La salida binaural anecoica total es un ejemplo de una segunda representación de audio. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una segunda representación de audio que consiste en una combinación de dicha primera representación de audio y dichas señal(es) auxiliares, en las que una o más de dichas señal(es) auxiliares se han modificado en respuesta a dichos datos de orientación de la cabeza.
Debe observarse además que si se recibe información sobre más de una señal dominante, cada señal dominante se puede representar y agregar a la señal residual reconstruida.
Mientras no se aplique rotación o traslación de la cabeza, las señales de salida y, y- deben estar muy cerca (en términos de error cuadrático medio) de las señales binaurales de referencia yl, yr siempre y cuando
Figure imgf000007_0002
Propiedades clave
Como se puede observar de la formulación de la ecuación anterior, la operación efectiva para construir la presentación binaural anecoica a partir de la presentación estéreo consiste en una matriz 70 de 2x2, en la cual los coeficientes de la matriz dependen de la información transmitida w i,d w r,d; p d ; w ¡j y la rotación y / o traslación del rastreador de la cabeza. Esto indica que la complejidad del proceso es relativamente baja, ya que el análisis de los componentes dominantes se aplica en el codificador en lugar de en el decodificador.
Si no se estima un componente dominante (por ejemplo, wl,d,wr,d = 0), la solución descrita es equivalente a un método binaural paramétrico.
En los casos en que se desee excluir ciertos objetos de la rotación de cabeza / rastreo de cabeza, estos objetos se pueden excluir del (1) análisis de dirección del componente dominante y (2) la predicción de la señal del componente dominante. Como resultado, estos objetos se convertirán de estéreo a binaural a través de los coeficientes w i,j y, por lo tanto, no se verán afectados por ninguna rotación o traslación de la cabeza.
En una línea de pensamiento similar, los objetos se pueden configurar en un modo de "paso a través", lo que significa que en la presentación binaural, estarán sujetos a un cribado de amplitud en lugar de una convolución HRIR. Esto se puede obtener simplemente usando ganancias de amplitud panorámica para los coeficientes H.,i en lugar de los HRTF de un toque o cualquier otro procesamiento binaural adecuado.
Extensiones
El decodificador 60 descrito con referencia a la figura 5 tiene una señal de salida que consta de una dirección de componente dominante representada más la señal de entrada formando una matriz mediante los coeficientes de matriz w i,j. Los últimos coeficientes se pueden derivar de varias maneras, por ejemplo:
1. Los coeficientes wi,j se puede determinar en el codificador mediante la reconstrucción paramétrica de las señales y l, yr. En otras palabras, en esta implementación, los coeficientes wi,j tienen el objetivo de la reconstrucción fiel de las señales binaurales y l, yr eso se habría obtenido al representar los objetos/canales de entrada originales de forma binaural; en otras palabras, los coeficientes wi,j son contenidos dirigidos. 2. Los coeficientes w i,j se pueden enviar desde el codificador al decodificador para representar HRTF para posiciones espaciales fijas, por ejemplo en ángulos de acimut de /- 45 grados. En otras palabras, la señal residual se procesa para simular la reproducción a través de dos altavoces virtuales en ciertos lugares. Como estos coeficientes que representan los HRTF se transmiten del codificador al decodificador, las ubicaciones de los altavoces virtuales pueden cambiar con el tiempo y la frecuencia. Si se emplea este enfoque utilizando altavoces virtuales estáticos para representar la señal residual, los coeficientes w i,j no necesitan transmisión del codificador al decodificador, y en su lugar pueden estar cableados en el decodificador. Una variación de este enfoque consistiría en un conjunto limitado de posiciones estáticas disponibles en el decodificador, con sus correspondientes coeficientes wi,j, y la selección de qué posición estática se usa para procesar la señal residual se señala desde el codificador al decodificador.
Las señales y l, yr pueden ser sometidas a un denominado mezclador ascendente, que reconstruye más de 2 señales por medio del análisis estadístico de estas señales en el decodificador, seguido de una renderización binaural de las señales mixtas ascendentes resultantes.
Los métodos descritos también se pueden aplicar en un sistema en el que la señal transmitida Z es una señal binaural. En ese caso particular, el decodificador 60 de la figura 5 permanece como está, mientras que el bloque etiquetado “Generar mezcla estéreo (LoRo)” 44 en la figura 4 debe reemplazarse por “Generar mezcla binaural anecoica”43 (figura 4) que es lo mismo que el bloque que produce el par de señales Y. Además, se pueden generar otras formas de mezclas según los requisitos.
Este enfoque puede ampliarse con métodos para reconstruir una o más señales de entrada FDN de la mezcla estéreo transmitida que consiste en un subconjunto específico de objetos o canales.
El enfoque se puede extender con múltiples componentes dominantes que se predicen a partir de la mezcla estéreo transmitida y se renderizan en el lado del decodificador. No existe una limitación fundamental de predecir solo un componente dominante para cada mosaico de tiempo/frecuencia. En particular, el número de componentes dominantes puede diferir en cada mosaico de tiempo/frecuencia.
Interpretación
Como se usa en este documento, a menos que se especifique lo contrario, el uso de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, simplemente indica que se están haciendo referencia a diferentes menciones de objetos similares, y no pretende implicar que los objetos así descritos deben estar en una secuencia dada, ya sea temporal, espacial, en clasificación o de cualquier otra manera.
En las reivindicaciones que siguen y en la descripción en este documento, cualquiera de los términos que comprende, compuesto por son términos abiertos que significan incluir al menos los elementos/características que siguen, pero sin excluir otros. Por lo tanto, el término que comprende, cuando se usa en las reivindicaciones, no debe interpretarse como limitativo de los medios o elementos o etapas enumerados a continuación. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no debe limitarse a dispositivos que consisten solo en los elementos A y B. Cualquiera de los términos incluyendo o que incluye como se usa en el presente documento también es un término abierto que también significa incluir al menos los elementos/características que siguen al término, pero sin excluir otros. Por lo tanto, incluir es sinónimo y significa comprender.
Como se usa en el presente documento, el término "a modo de ejemplo" se usa en el sentido de proporcionar ejemplos, en lugar de indicar calidad. Es decir, una "realización a modo de ejemplo" es una realización proporcionada como un ejemplo, en oposición a ser necesariamente una realización de calidad a modo de ejemplo.
En la descripción proporcionada en la presente memoria, se exponen numerosos detalles específicos. Sin embargo, se entiende que las realizaciones de la invención se pueden llevar a la práctica sin estos detalles específicos. En otros casos, los métodos, estructuras y técnicas bien conocidos no se han mostrado en detalle para no oscurecer la comprensión de esta descripción.
De manera similar, se debe observar que el término "acoplado", cuando se usa en las reivindicaciones, no debe interpretarse como limitado solo a conexiones directas. Se pueden usar los términos "acoplado" y "conectado", junto con sus derivados. Debe entenderse que estos términos no pretenden ser sinónimos entre sí. Por lo tanto, el alcance de la expresión de un dispositivo A acoplado a un dispositivo B no debe limitarse a dispositivos o sistemas en los que una salida del dispositivo A está directamente conectada a una entrada del dispositivo B. Esto significa que existe una ruta entre una salida de A y una entrada de B que puede ser una ruta que incluye otros dispositivos o medios. "Acoplado" puede significar que dos o más elementos están en contacto físico o eléctrico directo, o que dos o más elementos no están en contacto directo entre sí, pero aún cooperan o interactúan entre sí.
Por lo tanto, aunque se han descrito realizaciones de la invención, los expertos en la materia reconocerán que se pueden hacer otras modificaciones adicionales sin salir del alcance de la invención definido por las reivindicaciones adjuntas, y que está destinado a reivindicar que todos esos cambios y modificaciones están dentro del alcance de la invención.

Claims (2)

REIVINDICACIONES
1. Un sistema configurado para codificar audio de entrada basado en un canal u objeto (21) para la reproducción, comprendiendo el sistema:
uno o más procesadores adaptados para realizar operaciones que comprenden:
renderizar el audio de entrada basado en un canal u objeto (21) en una presentación de salida inicial, comprendiendo la presentación de salida inicial una mezcla de altavoces estéreo;
determinar (23) una estimación de un componente de audio dominante (26) a partir del audio de entrada basado en un canal u objeto (21), incluyendo la determinación:
determinar (24) una serie de factores de ponderación de componente de audio dominante (27) para mapear la presentación de salida inicial en el componente de audio dominante; y
determinar la estimación de un componente de audio dominante (26) en base a los factores de ponderación de componente de audio dominante (27) y la presentación de salida inicial;
determinar una estimación de una dirección o posición (25) del componente de audio dominante); y
codificar la presentación de salida inicial, los factores de ponderación de componente de audio dominante (21), y al menos una de entre la dirección o posición de componente de audio dominante como la señal codificada para la reproducción.
2. Un medio de almacenamiento legible por ordenador que almacena instrucciones que, cuando se ejecutan por uno o más procesadores, hacen que el uno o más procesadores realicen operaciones que comprenden: renderizar el audio de entrada basado en canal u objeto (21) en una presentación de salida inicial que comprende una mezcla de altavoces estéreo;
determinar (23) una estimación de un componente de audio dominante (26) a partir del audio de entrada basado en un canal u objeto (21), incluyendo la determinación:
determinar (24) una serie de factores de ponderación de componente de audio dominante (27) para mapear la presentación de salida inicial en el componente de audio dominante; y
determinar la estimación de un componente de audio dominante (26) en base a los factores de ponderación de componente de audio dominante (27) y la presentación de salida inicial;
determinar una estimación de una dirección o posición (25) del componente de audio dominante; y
codificar la presentación de salida inicial, los factores de ponderación de componente de audio dominante (21), y al menos una de entre la dirección o posición de componente de audio dominante como la señal codificada para la reproducción.
ES20157296T 2015-11-17 2016-11-17 Rastreo de cabeza para sistema de salida binaural paramétrica Active ES2950001T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562256462P 2015-11-17 2015-11-17
EP15199854 2015-12-14

Publications (1)

Publication Number Publication Date
ES2950001T3 true ES2950001T3 (es) 2023-10-04

Family

ID=55027285

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20157296T Active ES2950001T3 (es) 2015-11-17 2016-11-17 Rastreo de cabeza para sistema de salida binaural paramétrica

Country Status (15)

Country Link
US (2) US10362431B2 (es)
EP (3) EP3378239B1 (es)
JP (1) JP6740347B2 (es)
KR (2) KR102586089B1 (es)
CN (2) CN108476366B (es)
AU (2) AU2016355673B2 (es)
BR (2) BR122020025280B1 (es)
CA (2) CA3005113C (es)
CL (1) CL2018001287A1 (es)
ES (1) ES2950001T3 (es)
IL (1) IL259348B (es)
MY (1) MY188581A (es)
SG (1) SG11201803909TA (es)
UA (1) UA125582C2 (es)
WO (1) WO2017087650A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio
CN111052770B (zh) * 2017-09-29 2021-12-03 苹果公司 空间音频下混频的方法及系统
US11004457B2 (en) * 2017-10-18 2021-05-11 Htc Corporation Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US11032662B2 (en) 2018-05-30 2021-06-08 Qualcomm Incorporated Adjusting audio characteristics for augmented reality
TWI683582B (zh) * 2018-09-06 2020-01-21 宏碁股份有限公司 增益動態調節之音效控制方法及音效輸出裝置
CN111615044B (zh) * 2019-02-25 2021-09-14 宏碁股份有限公司 声音信号的能量分布修正方法及其系统
CN113678473A (zh) * 2019-06-12 2021-11-19 谷歌有限责任公司 三维音频源空间化
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
DE112021004444T5 (de) * 2020-08-27 2023-06-22 Apple Inc. Stereobasierte immersive codierung (stic)
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
EP4292086A1 (en) 2021-02-11 2023-12-20 Nuance Communications, Inc. Multi-channel speech compression system and method
CN113035209B (zh) * 2021-02-25 2023-07-04 北京达佳互联信息技术有限公司 三维音频获取方法和三维音频获取装置
US20240163629A1 (en) * 2022-11-11 2024-05-16 Bang & Olufsen, A/S Adaptive sound scene rotation

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO316296A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Dithered binaural system
WO1999014983A1 (en) 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JPH11220797A (ja) * 1998-02-03 1999-08-10 Sony Corp ヘッドホン装置
JP4088725B2 (ja) * 1998-03-30 2008-05-21 ソニー株式会社 オーディオ再生装置
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6839438B1 (en) 1999-08-31 2005-01-04 Creative Technology, Ltd Positional audio rendering
JP5306565B2 (ja) 1999-09-29 2013-10-02 ヤマハ株式会社 音響指向方法および装置
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7076204B2 (en) 2001-10-30 2006-07-11 Unwired Technology Llc Multiple channel wireless communication system
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
JP2006270649A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声・音響信号処理装置およびその方法
WO2007080212A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Controlling the decoding of binaural audio signals
US20090052703A1 (en) 2006-04-04 2009-02-26 Aalborg Universitet System and Method Tracking the Position of a Listener and Transmitting Binaural Audio Data to the Listener
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
CN101889307B (zh) * 2007-10-04 2013-01-23 创新科技有限公司 相位-幅度3d立体声编码器和解码器
KR101567461B1 (ko) * 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
US8587631B2 (en) 2010-06-29 2013-11-19 Alcatel Lucent Facilitating communications using a portable communication device and directed sound output
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2904817A4 (en) 2012-10-01 2016-06-15 Nokia Technologies Oy APPARATUS AND METHOD FOR REPRODUCING RECORDED AUDIO DATA WITH CORRECT SPACE ORIENTATION
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP3005344A4 (en) 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
ES2755349T3 (es) * 2013-10-31 2020-04-22 Dolby Laboratories Licensing Corp Renderización binaural para auriculares utilizando procesamiento de metadatos
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters

Also Published As

Publication number Publication date
US10362431B2 (en) 2019-07-23
EP4236375A3 (en) 2023-10-11
CA3005113C (en) 2020-07-21
CN108476366A (zh) 2018-08-31
EP3716653B1 (en) 2023-06-07
KR20230145232A (ko) 2023-10-17
IL259348A (en) 2018-07-31
KR20180082461A (ko) 2018-07-18
KR102586089B1 (ko) 2023-10-10
CN108476366B (zh) 2021-03-26
UA125582C2 (uk) 2022-04-27
US20180359596A1 (en) 2018-12-13
AU2020200448B2 (en) 2021-12-23
CA3080981C (en) 2023-07-11
BR122020025280B1 (pt) 2024-03-05
BR112018010073B1 (pt) 2024-01-23
CA3080981A1 (en) 2017-05-26
MY188581A (en) 2021-12-22
JP2018537710A (ja) 2018-12-20
EP3378239A1 (en) 2018-09-26
AU2016355673A1 (en) 2018-05-31
EP3378239B1 (en) 2020-02-19
CL2018001287A1 (es) 2018-07-20
WO2017087650A1 (en) 2017-05-26
CA3005113A1 (en) 2017-05-26
IL259348B (en) 2020-05-31
EP4236375A2 (en) 2023-08-30
BR112018010073A2 (pt) 2018-11-13
AU2016355673B2 (en) 2019-10-24
EP3716653A1 (en) 2020-09-30
US10893375B2 (en) 2021-01-12
US20190342694A1 (en) 2019-11-07
CN113038354A (zh) 2021-06-25
JP6740347B2 (ja) 2020-08-12
AU2020200448A1 (en) 2020-02-13
SG11201803909TA (en) 2018-06-28

Similar Documents

Publication Publication Date Title
ES2950001T3 (es) Rastreo de cabeza para sistema de salida binaural paramétrica
JP7254137B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
JP5587551B2 (ja) オーディオ符号化
US20150248891A1 (en) Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
Delikaris-Manias et al. Parametric binaural rendering utilizing compact microphone arrays
ES2779603T3 (es) Sistema y método de salida binaural paramétrico
Takanen et al. Binaural assessment of parametrically coded spatial audio signals
RU2818687C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
McCormack Real-time microphone array processing for sound-field analysis and perceptually motivated reproduction