ES2940286T3 - Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden - Google Patents

Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden Download PDF

Info

Publication number
ES2940286T3
ES2940286T3 ES19813056T ES19813056T ES2940286T3 ES 2940286 T3 ES2940286 T3 ES 2940286T3 ES 19813056 T ES19813056 T ES 19813056T ES 19813056 T ES19813056 T ES 19813056T ES 2940286 T3 ES2940286 T3 ES 2940286T3
Authority
ES
Spain
Prior art keywords
order
sound field
component
signal
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19813056T
Other languages
English (en)
Inventor
Guillaume Fuchs
Oliver Thiergart
Srikanth Korse
Stefan Döhla
Markus Multrus
Fabian Küch
Alexandre Boutheon
Andrea Eichenseer
Stefan Bayer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2940286T3 publication Critical patent/ES2940286T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato para generar una descripción de campo de sonido usando una señal de entrada que comprende una señal mono o una señal multicanal comprende: un analizador de señal de entrada (600) para analizar la señal de entrada para derivar datos de dirección y datos de difusividad; un generador de componentes de bajo orden (810) para generar una descripción de campo de sonido de bajo orden desde la señal de entrada hasta un orden y modo predeterminados, en el que el generador de componentes de bajo orden está configurado para derivar la descripción de campo de sonido de bajo orden copiando o tomando la señal de entrada o realizando una combinación ponderada de los canales de la señal de entrada; un generador de componentes de orden medio (820) para generar una descripción de campo de sonido de orden medio por encima del orden predeterminado o en el orden predeterminado y por encima del modo predeterminado y por debajo o en un primer orden de truncamiento utilizando una síntesis de al menos una parte directa y de al menos una porción difusa usando los datos de dirección y los datos de difusividad de modo que la descripción del campo de sonido de orden medio comprenda una contribución directa y una contribución difusa; y un generador de componentes de alto orden (830) para generar una descripción de campo de sonido de alto orden que tiene un componente por encima del primer orden de truncamiento utilizando una síntesis de al menos una parte directa, en el que la descripción de campo de sonido de alto orden comprende solo una contribución directa. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden
La presente invención se refiere a codificación de audio y, en particular, a la generación de una descripción de campo de sonido a partir de una señal de entrada usando uno o más generadores de componentes de sonido.
Un ejemplo de generación de una descripción de campo de sonido en el contexto de la codificación de audio se puede encontrar en el documento US 2018/218740 A1.
La técnica de codificación de audio direccional (DirAC) [1] es un enfoque eficiente para el análisis y la reproducción del sonido espacial. La DirAC utiliza una representación perceptualmente motivada del campo de sonido con base en la dirección de llegada (DOA) y difusión medida por banda de frecuencia. Se basa en la suposición de que en un instante de tiempo y en una banda crítica, la resolución espacial del sistema auditivo se limita a decodificar una pista para dirección y otra para coherencia interaural. El sonido espacial se representa entonces en el dominio de frecuencia mediante fundido cruzado de dos flujos: un flujo difuso no direccional y un flujo no difuso direccional.
DirAC se propuso originalmente para sonido grabado en formato B, pero también se puede extender para señales de micrófono que coinciden con una configuración de altavoz específica como 5.1 [2] o cualquier configuración de arreglos de micrófonos [5]. En el último caso, se puede lograr más flexibilidad al grabar las señales no para una configuración de altavoz específica, sino en cambio grabando las señales de un formato intermedio.
Este formato intermedio, que está bien establecido en la práctica, se representa por Ambisonics (de mayor orden) [3]. A partir de una señal Ambisonics, se pueden generar las señales de cada configuración de altavoz deseada, que incluyen las señales binaurales para reproducción de auriculares. Esto requiere un renderizador específico que se aplica a la señal Ambisonics, utilizando un renderizador Ambisonics lineal [3] o un renderizador paramétrico como la codificación de audio direccional (DirAC).
Una señal Ambisonics se puede representar como una señal multicanal donde cada canal (denominado componente Ambisonics) es equivalente al coeficiente de una llamada función de base espacial. Con una suma ponderada de estas funciones de base espacial (con los factores de ponderación correspondientes a los coeficientes) se puede recrear el campo de sonido original en la ubicación de grabación [3]. Por lo tanto, los coeficientes de función de base espacial (es decir, los componentes Ambisonics) representan una descripción compacta del campo de sonido en la ubicación de grabación. Existen diferentes tipos de funciones de base espacial, por ejemplo, armónicos esféricos (SH) [3] o armónicos cilíndricos (CH) [3]. Los CH se pueden usar cuando se describe el campo de sonido en el espacio 2D (por ejemplo, para la reproducción de sonido 2D), mientras que los SH se pueden usar para describir el campo de sonido en el espacio 2D y 3D (por ejemplo, para la reproducción de sonido 2D y 3D).
Como un ejemplo, una señal de audio f ( t ) que llega de una cierta dirección (ty , 9) da como resultado una señal de audio espacial f (ty, 9, t ) que se puede representar en formato Ambisonics expandiendo los armónicos esféricos hasta un orden de truncamiento H:
Figure imgf000002_0001
Yjm(ty, 0) ^ i m( t )
por lo cual 'Y^m((p, 9) son los armónicos esféricos de orden l y modo m, y 0¿m ( t ) los coeficientes de expansión. Con un orden de truncamiento creciente H, la expansión da como resultado una representación espacial más precisa. Los armónicos esféricos hasta el orden H = 4 con el índice de numeración de canal Ambisonics (ACN) se ilustran en la figura 1a para el orden n y el modo m.
DirAC ya se extendió para distribuir señales Ambisonics de mayor orden desde una señal Ambisonics de primer orden (FOA como el llamado formato B) o desde diferentes arreglos de micrófonos [5]. Este documento se centra en una forma más eficiente de sintetizar señales Ambisonics de mayor orden a partir de parámetros DirAC y una señal de referencia. En este documento, la señal de referencia, también denominada señal de mezcla descendente, se considera un subconjunto de una señal Ambisonics de mayor orden o una combinación lineal de un subconjunto de los componentes Ambisonics.
Además, la presente invención considera el caso en el que se utiliza la DirAC para la transmisión en forma paramétrica de la escena de audio. En este caso, la señal de mezcla descendente se codifica mediante un codificador de núcleo de audio convencional mientras que los parámetros DirAC se transmiten de manera comprimida como información secundaria. La ventaja del presente método es tener en cuenta el error de cuantificación que se produce durante la codificación de audio.
A continuación, se presenta una descripción general de un sistema de codificación de audio espacial basado en DirAC diseñado para servicios de voz y audio inmersivos (IVAS). Esto representa uno de los diferentes contextos, como una visión general del sistema de un codificador de audio espacial DirAC. El objetivo de este sistema es poder manejar diferentes formatos de audio espacial que representan la escena de audio y codificarlos a bajas velocidades de bits y reproducir la escena de audio original lo más fielmente posible después de la transmisión.
El sistema puede aceptar como entrada diferentes representaciones de escenas de audio. La escena de audio de entrada se puede capturar mediante señales multicanal dirigidas a reproducirse en las diferentes posiciones de los altavoces, objetos auditivos junto con metadatos que describen las posiciones de los objetos con respecto al tiempo, o un formato Ambisonics de primer orden o de mayor orden que representa el campo de sonido en la posición del oyente o de referencia.
Preferiblemente, el sistema se basa en Servicios de Voz Mejorados (EVS) 3GPP, ya que se espera que la solución funcione con baja latencia para permitir servicios de conversación en redes móviles.
Como se muestra en la figura 1b, el codificador (codificador IVAS) es capaz de soportar diferentes formatos de audio presentados al sistema por separado o al mismo tiempo. Las señales de audio pueden ser de naturaleza acústica, captadas por micrófonos, o de naturaleza eléctrica, que se supone que se transmiten a los altavoces. Los formatos de audio admitidos pueden ser señales multicanal, componentes Ambisonics de primer orden y de mayor orden y objetos de audio. Una escena de audio compleja también se puede describir combinando diferentes formatos de entrada. Luego, todos los formatos de audio se transmiten al análisis DirAC, que extrae una representación paramétrica de la escena de audio completa. Una dirección de llegada y una difusión medida por unidad de tiempo-frecuencia forman los parámetros. El análisis DirAC es seguido por un codificador de metadatos espaciales, que cuantifica y codifica los parámetros DirAC para obtener una representación paramétrica de baja velocidad de bits.
Junto con los parámetros, se codifica una señal de mezcla descendente derivada de las diferentes fuentes o señales de entrada de audio para su transmisión mediante un codificador de núcleo de audio convencional. En este caso, se adopta un codificador de audio basado en EVS para codificar la señal de mezcla descendente. La señal de mezcla descendente consta de diferentes canales, llamados canales de transporte: la señal puede ser, por ejemplo, las cuatro señales de coeficiente que componen una señal de formato B, un par estéreo o una mezcla descendente monofónica dependiendo de la velocidad de bits objetivo. Los parámetros espaciales codificados y el flujo de bits de audio codificado se multiplexan antes de transmitirse a través del canal de comunicación.
El lado de codificador de la codificación de audio espacial basada en DirAC que soporta diferentes formatos de audio se ilustra en la figura 1b. Una entrada acústica/eléctrica 1000 se introduce en una interfaz de codificador 1010, donde la interfaz de codificador tiene una funcionalidad específica para Ambisonics de primer orden (FOA) o Ambisonics de alto orden (HOA) ilustrada en 1013. Además, la interfaz de codificador tiene una funcionalidad para datos multicanal (MC) tal como datos estéreo, datos 5.1 o datos que tienen más de dos o cinco canales. Además, la interfaz de codificador 1010 tiene una funcionalidad para codificación de objetos como, por ejemplo, SAOC (codificación de objetos de audio espacial) ilustrada 1011. El codificador IVAS comprende una etapa DirAC 1020 que tiene un bloque de análisis DirAC 1021 y un bloque de mezcla descendente (DMX) 1022. La salida de señal por el bloque 1022 se codifica por un codificador de núcleo IVAS 1040 tal como codificador AAC o EVS, y los metadatos generados por el bloque 1021 se codifican usando un codificador de metadatos DirAC 1030.
En el decodificador, que se muestra en la figura 2, los canales de transporte se decodifican por el decodificador de núcleo, mientras que los metadatos DirAC se decodifican primero antes de que se porten con los canales de transporte decodificados a la síntesis DirAC. En este momento, se pueden considerar diferentes opciones. Se puede solicitar reproducir la escena de audio directamente en cualquier altavoz o configuración de auriculares como suele ser posible en un sistema DirAC convencional (MC en la figura 2).
El decodificador también puede entregar los objetos individuales tal como se presentaron en el lado de codificador (objetos en la figura 2).
Alternativamente, también se puede solicitar que la escena se represente en formato Ambisonics para otras manipulaciones adicionales, como rotación, reflexión o movimiento de la escena (FOA/HOA en la figura 2) o para usar un procesador externo no definido en el sistema original.
El decodificador de la codificación de audio espacial DirAC que distribuye diferentes formatos de audio se ilustra en la figura 2 y comprende un decodificador IVAS 1045 y la interfaz de decodificador conectada posteriormente 1046. El decodificador IVAS 1045 comprende un decodificador de núcleo IVAS 1060 que se configura para realizar una operación de decodificación de contenido codificado por el codificador de núcleo IVAS 1040 de la figura 1b. Además, se proporciona un decodificador de metadatos DirAC 1050 que proporciona la funcionalidad de decodificación para decodificar el contenido codificado por el codificador de metadatos DirAC 1030. Un sintetizador DirAC 1070 recibe datos del bloque 1050 y 1060 y usando algo de interactividad de usuario o no, la salida se ingresa en una interfaz de decodificador 1046 que genera datos FOA/HOA ilustrados en 1083, datos multicanal (datos MC) como se ilustra en el bloque 1082, o datos de objeto como se ilustra en el bloque 1080.
En la figura 3 se ilustra una síntesis HOA convencional utilizando el paradigma DirAC. Una señal de entrada llamada señal de mezcla descendente es la frecuencia de tiempo analizada por un banco de filtros de frecuencia. El banco de filtros de frecuencia 2000 puede ser un banco de filtros de valor complejo como QMF de valor complejo o una transformada de bloque como STFT. La síntesis HOA genera en la salida una señal Ambisonics de orden H que contiene ( H l ) 2 componentes. Opcionalmente, también puede emitir la señal Ambisonics representada en un diseño de altavoz específico. A continuación, se detalla cómo obtener los (H l ) 2 componentes de la señal de mezcla descendente acompañados en algunos casos por parámetros espaciales de entrada.
La señal de mezcla descendente puede ser las señales de micrófono originales o una mezcla de las señales originales que representan la escena de audio original. Por ejemplo, si la escena de audio se captura mediante un micrófono de campo de sonido, la señal de mezcla descendente puede ser el componente omnidireccional de la escena (W), una mezcla descendente estéreo (L/R) o la señal Ambisonics de primer orden (FOA).
Para cada mosaico de tiempo-frecuencia, una dirección de sonido, también llamada Dirección de llegada (DOA), y un factor de difusión se estiman por el estimador de dirección 2020 y por el estimador de difusión 2010, respectivamente, si la señal de mezcla descendente contiene información suficiente para determinar estos parámetros DirAC. Es el caso, por ejemplo, si la señal de mezcla descendente es una señal Ambisonics de primer orden (FOA). Alternativamente o si la señal de mezcla descendente no es suficiente para determinar estos parámetros, los parámetros se pueden transmitir directamente a la síntesis DirAC a través de un flujo de bits de entrada que contiene los parámetros espaciales. El flujo de bits podría consistir, por ejemplo, de parámetros cuantificados y codificados recibidos como información secundaria en el caso de aplicaciones de transmisión de audio. En este caso, los parámetros se derivan fuera del módulo de síntesis DirAC de las señales de micrófono originales o los formatos de audio de entrada proporcionados al módulo de análisis DirAC en el lado de codificador como se ilustra mediante el interruptor 2030 o 2040.
Las direcciones de sonido se utilizan por un evaluador de ganancias direccionales 2050 para evaluar, para cada mosaico de tiempo-frecuencia de la pluralidad de mosaicos de tiempo-frecuencia, uno o más conjuntos de (H l ) 2 ganancias direccionales G¿m (fc, r i) , donde H es el orden de la señal Ambisonics sintetizada.
Las ganancias direccionales se pueden obtener mediante la evaluación de la función de base espacial para cada dirección de sonido estimada en el orden deseado (nivel) l y modo m de la señal Ambisonics para sintetizar. La dirección de sonido se puede expresar, por ejemplo, en términos de un vector normal unitario r i (k, ri) o en términos de un ángulo de acimut ty(k, ri) y/o ángulo de elevación d(k, r i) , que se relacionan, por ejemplo, como:
Figure imgf000004_0001
Después de estimar u obtener la dirección del sonido, una respuesta de una función de base espacial del orden deseado (nivel) l y modo se pueden determinar, por ejemplo, considerando armónicos esféricos de valor real con normalización SN3d como función de base espacial:
y r (< p .o ) pj lmlp l7,r| sen
sen m <
9 0
c o s
Figure imgf000004_0002
ira > 0
con los intervalos 0 < l < H, y -l < m < l. p}m^ son las funciones de Legendre y
Figure imgf000005_0001
es un término de normalización tanto para las funciones de Legendre como para las funciones trigonométricas que toma la siguiente forma para SN3D:
Figure imgf000005_0002
donde la delta Kronecker Sm es uno para m = 0 y cero en caso contrario. Las ganancias direccionales se deducen directamente para cada mosaico de tiempo-frecuencia de índices (k,n) como:
Gjn(k ,r i) = Y ™ (ty (k ,r i) ,0 (k ,r i) )
Los componentes Ambisonics de sonido directo P^¡ se calculan derivando una señal de referencia Pref de la señal de mezcla descendente y se multiplican por las ganancias direccionales y una función de factor de la difusión V ( k , n ):
P™ i(k,ri) = Pre f( k , r i ) ^ l - W ( k , n ) G ¡ n(k ,r i)
Por ejemplo, la señal de referencia Pref puede ser el componente omnidireccional de la señal de mezcla descendente o una combinación lineal de los K canales de la señal de mezcla descendente.
El componente Ambisonics de sonido difuso se puede modelar mediante el uso de una respuesta de una función de base espacial para los sonidos que llegan de todas las direcciones posibles. Un ejemplo es definir la respuesta promedio D jn al considerar la integral de la magnitud al cuadrado de la función de base espacial D jn a través de todos los ángulos posibles y 6:
r 271 r Jt
D¡" - IYtm(<p, 0)|2 sen 6 d6d(p
Jq *o
Los componentes Ambisonics de sonido difuso P™i se calculan a partir de una señal P d iff multiplicada por la respuesta promedio y una función de factor de la difusión V ( k , n ):
P Z (k ,n ) = P%r r i ( k , n ) f 9 ( k ñ . j B ñ
La señal P^Uff i se puede obtener mediante el uso de diferentes descorrelacionadores aplicados a la señal de referencia Pref .
Finalmente, el componente Ambisonics de sonido directo y el componente Ambisonics de sonido difuso se combinan 2060, por ejemplo, mediante la operación de suma, para obtener el componente Ambisonics final P™ del orden deseado (nivel) l y modo m para el mosaico de tiempo-frecuencia (k, n), es decir,
Pjn (k, ri) = P™i(k, n ) PJHf f i i(k , r i)
Los componentes Ambisonics obtenidos se pueden transformar de nuevo en el dominio de tiempo utilizando un banco de filtros inversos 2080 o una STFT inversa, almacenados, transmitidos o utilizados, por ejemplo, para aplicaciones de reproducción de sonido espacial. Alternativamente, se puede aplicar un renderizador Ambisonics lineal 2070 para cada banda de frecuencia para obtener señales que se van a reproducir en un diseño de altavoz específico o a través de auriculares antes de transformar las señales de altavoces o las señales binaurales en el dominio de tiempo.
Se debe señalar que [5] también enseñó la posibilidad de que los componentes de sonido difuso PJUffi solo se podían sintetizar hasta un orden L, donde L<H. Esto reduce la complejidad computacional mientras se evitan artefactos sintéticos debido al uso intensivo de descorrelacionadores.
El objeto de la presente invención es proporcionar un concepto mejorado para generar una descripción de campo de sonido a partir de una señal de entrada.
Este objeto se logra mediante un aparato para generar una descripción de campo de sonido de la reivindicación 1, un método para generar una descripción de campo de sonido de la reivindicación 21 o un programa informático de la reivindicación 22.
La presente invención de acuerdo con un primer aspecto se basa en el hallazgo de que no es necesario realizar una síntesis de componentes de campo de sonido que incluye un cálculo de porción difusa para todos los componentes generados. Es suficiente realizar una síntesis de componentes difusos solo hasta un cierto orden. Sin embargo, con el fin de no tener fluctuaciones de energía o errores de energía, se realiza una compensación de energía al generar los componentes de campo de sonido de un primer grupo de componentes de campo de sonido que tienen un componente difuso y directo, donde esta compensación de energía depende de los datos de difusión, y al menos uno de un número de componentes de campo de sonido en el segundo grupo, un orden máximo de componentes de campo de sonido del primer grupo y un orden máximo de los componentes de campo de sonido del segundo grupo. Particularmente, de acuerdo con el primer aspecto de la presente invención, un aparato para generar una descripción de campo de sonido a partir de una señal de entrada que comprende uno o más canales comprende un analizador de señal de entrada para obtener datos de difusión de la señal de entrada y un generador de componentes de sonido para generar, a partir de la señal de entrada, uno o más componentes de campo de sonido de un primer grupo de componentes de campo de sonido que tienen para cada componente de campo de sonido un componente directo y un componente difuso, y para generar, a partir de la señal de entrada, el segundo grupo de componentes de campo de sonido que tienen solo el componente directo. Particularmente, el generador de componentes de sonido realiza una compensación de energía cuando se genera el primer grupo de componentes de campo de sonido, la compensación de energía dependiendo de los datos de difusión y al menos uno de un número de componentes de campo de sonido en el segundo grupo, un número de componentes difusos en el primer grupo, un orden máximo de componentes de campo de sonido del primer grupo y un orden máximo de componentes de campo de sonido del segundo grupo.
El primer grupo de componentes de campo de sonido puede comprender componentes de campo de sonido de bajo orden y componentes de campo de sonido de orden medio, y el segundo grupo comprende componentes de campo de sonido de alto orden.
Un aparato para generar una descripción de campo de sonido a partir de una señal de entrada que comprende al menos dos canales de acuerdo con un segundo aspecto de la invención comprende un analizador de señal de entrada para obtener datos de dirección y datos de difusión de la señal de entrada. El aparato comprende además un estimador para estimar una primera medición relacionada con energía o amplitud para un componente omnidireccional derivado de la señal de entrada y para estimar una segunda medición relacionada con energía o amplitud para un componente direccional derivado de la señal de entrada. Además, el aparato comprende un generador de componentes de sonido para generar componentes de campo de sonido del campo de sonido, donde el generador de componentes de sonido se configura para realizar una compensación de energía del componente direccional usando la primera medición relacionada con energía o amplitud, la segunda medición relacionada con energía o amplitud, los datos de dirección y los datos de difusión.
Particularmente, el segundo aspecto de la presente invención se basa en el hallazgo de que en una situación, donde el aparato recibe un componente direccional para generar una descripción de campo de sonido y, al mismo tiempo, también se reciben datos de dirección y datos de difusión, los datos de dirección y difusión se pueden utilizar para compensar cualquier error probablemente introducido debido a una cuantificación o cualquier otro procesamiento del componente direccional u omnidireccional dentro del codificador. Por lo tanto, los datos de dirección y difusión no se aplican simplemente con el propósito de generación de descripción de campo de sonido tal como son, sino estos datos se utilizan una "segunda vez" para corregir el componente direccional con el fin de deshacer o al menos parcialmente deshacer y, por lo tanto, compensar una pérdida de energía del componente direccional.
Preferentemente, esta compensación de energía se realiza a componentes de bajo orden que se reciben en una interfaz de decodificador o que se generan a partir de datos recibidos de un codificador de audio que genera la señal de entrada.
De acuerdo con un tercer aspecto de la presente invención, un aparato para generar una descripción de campo de sonido usando una señal de entrada que comprende una señal mono o una señal multicanal comprende un analizador de señal de entrada, un generador de componentes de audio bajo, un generador de componentes de orden medio y un generador de componentes de alto orden. Particularmente, los diferentes "sub"-generadores se configuran para generar componentes de campo de sonido en el orden respectivo con base en un procedimiento de procesamiento específico que es diferente para cada uno de los generadores de componentes de bajo, medio o alto orden. Esto asegura que se mantenga un equilibrio óptimo entre los requisitos de procesamiento por un lado, los requisitos de calidad de audio por otro lado y los procedimientos de practicidad por otro lado. Mediante este procedimiento, el uso de descorrelacionadores, por ejemplo, se limita solo a la generación de componentes de orden medio, pero se evitan los descorrelacionadores propensos a artefactos para la generación de componentes de bajo orden y la generación de componentes de alto orden. Por otro lado, preferentemente se realiza una compensación de energía para la pérdida de energía de componentes difusos y esta compensación de energía se realiza dentro de los componentes de campo de sonido de bajo orden solo o dentro de los componentes de campo de sonido de orden medio solo o tanto en los componentes de campo de sonido de bajo orden como en los componentes de campo de sonido de orden medio. Preferentemente, una compensación de energía para el componente direccional formado en el generador de componentes de bajo orden también se realiza usando datos de difusión direccional transmitidos.
Las realizaciones preferidas se refieren a un aparato, un método o un programa informático para sintetizar una señal Ambisonics (de mayor orden) usando un paradigma de Codificación de Audio Direccional (DirAC), una técnica perceptualmente motivada para el procesamiento de audio espacial.
Las realizaciones se refieren a un método eficiente para sintetizar una representación Ambisonics de una escena de audio a partir de parámetros espaciales y una señal de mezcla descendente. En una aplicación del método, pero no se limita a, la escena de audio se transmite y, por lo tanto, se codifica para reducir la cantidad de datos transmitidos. La señal de mezcla descendente se limita fuertemente en número de canales y calidad por la velocidad de bits disponible para la transmisión. Las realizaciones se refieren a una forma eficaz de aprovechar la información contenida en la señal de mezcla descendente transmitida para reducir la complejidad de la síntesis al tiempo que aumenta la calidad.
Otra realización de la invención se refiere al componente difuso del campo de sonido que se puede limitar a modelarse únicamente hasta un orden predeterminado de los componentes sintetizados para evitar la síntesis de artefactos. La realización proporciona una manera de compensar la pérdida de energía resultante mediante la amplificación de la señal de mezcla descendente.
Otra realización se refiere al componente direccional del campo de sonido cuyas características se pueden alterar dentro de la señal de mezcla descendente. La señal de mezcla descendente se puede normalizar en energía además para preservar la relación de energía dictada por un parámetro de dirección transmitido pero interrumpido durante la transmisión por cuantificación inyectada u otros errores.
Posteriormente, las realizaciones preferidas de la presente invención se describen con respecto a las figuras anexas, en las cuales:
La figura 1a ilustra armónicos esféricos con numeración de canales/componentes Ambisonics;
La figura 1b ilustra un lado de codificador de un procesador de codificación de audio espacial basado en DirAC; La figura 2 ilustra un decodificador del procesador de codificación de audio espacial basado en DirAC;
La figura 3 ilustra un procesador de síntesis Ambisonics de alto orden conocido en la técnica;
La figura 4 ilustra una realización preferida de la presente invención que aplica el primer aspecto, el segundo aspecto y el tercer aspecto;
La figura 5 ilustra un procesamiento de resumen de compensación de energía;
La figura 6 ilustra un aparato para generar una descripción de campo de sonido de acuerdo con un primer aspecto de la presente invención;
La figura 7 ilustra un aparato para generar una descripción de campo de sonido de acuerdo con un segundo aspecto de la presente invención;
La figura 8 ilustra un aparato para generar una descripción de campo de sonido de acuerdo con un tercer aspecto de la presente invención;
La figura 9 ilustra una implementación preferida del generador de componentes de bajo orden de la figura 8;
La figura 10 ilustra una implementación preferida del generador de componentes de orden medio de la figura 8; La figura 11 ilustra una implementación preferida del generador de componentes de alto orden de la figura 8;
La figura 12a ilustra una implementación preferida del cálculo de ganancia de compensación de acuerdo con el primer aspecto;
La figura 12b ilustra una implementación del cálculo de compensación de energía de acuerdo con el segundo aspecto; y
La figura 12c ilustra una implementación preferida de la compensación de energía que combina el primer aspecto y el segundo aspecto.
La figura 6 ilustra un aparato para generar una descripción de campo de sonido de acuerdo con el primer aspecto de la invención. El aparato comprende un analizador de señal de entrada 600 para obtener datos de difusión de la señal de entrada ilustrada a la izquierda en la figura 6. Además, el aparato comprende un generador de componentes de sonido 650 para generar, a partir de la señal de entrada, uno o más componentes de campo de sonido de un primer grupo de componentes de campo de sonido que tienen para cada componente de campo de sonido un componente directo y un componente difuso. Además, el generador de componentes de sonido genera, a partir de la señal de entrada, un segundo grupo de componentes de campo de sonido que tienen solo un componente directo.
Particularmente, el generador de componentes de sonido 650 se configura para realizar una compensación de energía cuando se genera el primer grupo de componentes de campo de sonido. La compensación de energía depende de los datos de difusión y el número de componentes de campo de sonido en el segundo grupo o en un orden máximo de los componentes de campo de sonido del primer grupo o un orden máximo de los componentes de campo de sonido del segundo grupo. Particularmente, de acuerdo con el primer aspecto de la invención, se realiza una compensación de energía para compensar una pérdida de energía debido al hecho de que, para el segundo grupo de componentes de campo de sonido, solo se generan componentes directos y no se generan componentes difusos.
Contrariamente a esto, en el primer grupo de componentes de campo de sonido, las porciones directa y difusa se incluyen en los componentes de campo de sonido. Por lo tanto, el generador de componentes de sonido 650 genera, como se ilustra por el arreglo superior, componentes de campo de sonido que solo tienen una porción directa y no una porción difusa como se ilustra, en otras figuras, por el número de referencia 830 y el generador de componentes de sonido genera componentes de campo de sonido que tienen una porción directa y una porción difusa como se ilustra por los números de referencia 810, 820 que se explican más adelante con respecto a otras figuras.
La figura 7 ilustra un aparato para generar una descripción de campo de sonido a partir de una señal de entrada que comprende al menos dos canales de acuerdo con el segundo aspecto de la invención. El aparato comprende un analizador de señal de entrada 600 para obtener datos de dirección y datos de difusión de la señal de entrada. Además, se proporciona un estimador 720 para estimar una primera medición relacionada con energía o amplitud para un componente omnidireccional derivado de la señal de entrada y para estimar una segunda medición relacionada con energía o amplitud para un componente direccional derivado de la señal de entrada.
Además, el aparato para generar la descripción de campo de sonido comprende un generador de componentes de sonido 750 para generar componentes de campo de sonido del campo de sonido, donde el generador de componentes de sonido 750 se configura para realizar una compensación de energía del componente direccional usando la primera medición de amplitud, la segunda medición relacionada con energía o amplitud, los datos de dirección y los datos de difusión. Por lo tanto, el generador de componentes de sonido genera, de acuerdo con el segundo aspecto de la presente invención, componentes direccionales (directos) corregidos/compensados y, si se implementa de manera correspondiente, otros componentes del mismo orden que la señal de entrada, tales como componentes omnidireccionales que preferentemente no se compensan en energía o solo se compensan en energía con el propósito de compensación de energía difusa como se analiza en el contexto de la figura 6. Se debe señalar que la medición relacionada con amplitud también puede ser la normal o magnitud o valor absoluto del componente direccional u omnidireccional tal como B0 y B1. Preferentemente, la potencia o energía derivada por la potencia de 2 se prefiere como se describe en la ecuación, pero también se pueden utilizar otras potencias aplicadas a la normal o magnitud o valor absoluto para obtener la medición relacionada con energía o amplitud.
En una implementación, el aparato para generar una descripción de campo de sonido de acuerdo con el segundo aspecto realiza una compensación de energía del componente de señal direccional incluido en la señal de entrada que comprende al menos dos canales de modo que un componente direccional se incluye en la señal de entrada o se puede calcular a partir de la señal de entrada tal como mediante el cálculo de una diferencia entre los dos canales. Este aparato solo puede realizar una corrección sin generar ningún dato de mayor orden o similar. Sin embargo, en otras realizaciones, el generador de componentes de sonido se configura para generar también otros componentes de campo de sonido de otros órdenes como se ilustra por los números de referencia 820, 830 descritos más adelante, pero para estos componentes de sonido (o de mayor orden), para los cuales no se incluyeron contrapartes en la señal de entrada, no se realiza necesariamente alguna compensación de energía de componente direccional.
La figura 8 ilustra una implementación preferida del aparato para generar una descripción de campo de sonido usando una señal de entrada que comprende una señal mono o una señal multicanal de acuerdo con el tercer aspecto de la presente invención. El aparato comprende un analizador de señal de entrada 600 para analizar la señal de entrada para derivar datos de dirección y datos de difusión. Además, el aparato comprende un generador de componentes de bajo orden 810 para generar una descripción de campo de sonido de bajo orden de la señal de entrada hasta un orden predeterminado y un modo predeterminado, en el que el generador de componentes de bajo orden 810 se configura para derivar la descripción de campo de sonido de bajo orden al copiar o tomar la señal de entrada o una parte de la señal de entrada tal como es o mediante la realización de una combinación ponderada de los canales de la señal de entrada cuando la señal de entrada es una señal multicanal. Además, el aparato comprende un generador de componentes de orden medio 820 para generar una descripción de campo de sonido de orden medio por encima del orden predeterminado o en el orden predeterminado y por encima del modo predeterminado y por debajo o en un primer orden de truncamiento usando una síntesis de al menos una porción directa y de al menos una porción difusa usando los datos de dirección y los datos de difusión de modo que la descripción de campo de sonido de orden medio comprenda una contribución directa y una contribución difusa.
El aparato para generar la descripción de campo de sonido comprende además un generador de componentes de alto orden 830 para generar una descripción de campo de sonido de alto orden que tiene un componente por encima del primer orden de truncamiento usando una síntesis de al menos una porción directa, en el que la descripción de campo de sonido de alto orden comprende una contribución directa solamente. Por lo tanto, en una realización, la síntesis de la por lo menos una porción directa se realiza sin ninguna síntesis de componente difuso, de modo que la descripción de campo de sonido de alto orden comprende una contribución directa solamente.
Por lo tanto, el generador de componentes de bajo orden 810 genera la descripción de campo de sonido de bajo orden, el generador de componentes de orden medio 820 genera la descripción de campo de sonido de orden medio y el generador de componentes de alto orden genera la descripción de campo de sonido de alto orden. La descripción de campo de sonido de bajo orden se extiende hasta un cierto orden y modo como, por ejemplo, en el contexto de componentes esféricos Ambisonics de alto orden como se ilustra en la figura 1. Sin embargo, cualquier otra descripción de campo de sonido tal como una descripción de campo de sonido con funciones cilíndricas o una descripción de campo de sonido con cualquier otro componente diferente de cualquier representación Ambisonics se puede generar también de acuerdo con el primer, el segundo y/o el tercer aspecto de la presente invención.
El generador de componentes de orden medio 820 genera componentes de campo de sonido por encima del orden o modo predeterminado y hasta un cierto orden de truncamiento que también se indica con L en la siguiente descripción. Finalmente, el generador de componentes de alto orden 830 se configura para aplicar la generación de componentes de campo de sonido desde el orden de truncamiento L hasta un orden máximo indicado como H en la siguiente descripción.
Dependiendo de la implementación, la compensación de energía proporcionada por el generador de componentes de sonido 650 de la figura 6 no se puede aplicar dentro del generador de componentes de bajo orden 810 o el generador de componentes de orden medio 820 como se ilustra por los números de referencia correspondientes en la figura 6 para el componente de sonido directo/difuso. Además, el segundo grupo de componentes de campo de sonido generado por el componente de campo de sonido generado por el generador de componentes de campo de sonido 650 corresponde a la salida del generador de componentes de alto orden 830 de la figura 8 ilustrado por el número de referencia 830 por debajo de la notación directa/no difusa en la figura 6.
Con respecto a la figura 7, se indica que la compensación de energía de componente direccional se realiza preferentemente dentro del generador de componentes de bajo orden 810 ilustrado en la figura 8, es decir, se realiza a algunos o todos los componentes de campo de sonido hasta el orden predeterminado y el modo predeterminado como se ilustra por el número de referencia 810 por encima de la flecha superior que sale del bloque 750. La generación de los componentes de orden medio y los componentes de alto orden se ilustra con respecto a la flecha sombreada superior que sale del bloque 750 en la figura 7 como se ilustra por los números de referencia 820, 830 indicados debajo de la flecha superior. Por lo tanto, el generador de componentes de bajo orden 810 de la figura 8 puede aplicar la compensación de energía difusa de acuerdo con el primer aspecto y la compensación de señal direccional (directa) de acuerdo con el segundo aspecto, mientras que el generador de componentes de orden medio 820 puede realizar la compensación de componentes difusos solamente, ya que el generador de componentes de orden medio genera datos de salida que tienen porciones difusas que se pueden mejorar con respecto a su energía para tener una mayor distribución de energía de componente difuso en la señal de salida.
Posteriormente, se hace referencia a la figura 4 que ilustra una implementación del primer aspecto, el segundo aspecto y el tercer aspecto de la presente invención dentro de un aparato para generar una descripción de campo de sonido.
La figura 4 ilustra el analizador de entrada 600. El analizador de entrada 600 comprende un estimador de dirección 610, un estimador de difusión 620 y conmutadores 630, 640. El analizador de señal de entrada 600 se configura para analizar la señal de entrada, típicamente posterior a un banco de filtros de análisis 400, con el fin de encontrar, para cada información de dirección de periodo de tiempo/frecuencia indicada como información DOA y/o de difusión. La información de dirección DOA y/o la información de difusión también pueden provenir de un flujo de bits. Por lo tanto, en situaciones en las que estos datos no se pueden recuperar de la señal de entrada, es decir, cuando la señal de entrada solo tiene un componente omnidireccional W, entonces el analizador de señal de entrada recupera datos de dirección y/o datos de difusión del flujo de bits. Cuando, por ejemplo, la señal de entrada es una señal de dos canales que tiene un canal izquierdo L y un canal derecho R, entonces se puede realizar un análisis para obtener datos de dirección y/o difusión. Cuando la señal de entrada es una señal Ambisonics de primer orden (FOA) o, cualquier otra señal con más de dos canales tal como una señal de formato A o una señal de formato B, entonces se puede realizar un análisis de señal real realizado por el bloque 610 o 620. Sin embargo, cuando se analiza el flujo de bits para recuperar, del flujo de bits, los datos de dirección y/o los datos de difusión, esto también representa un análisis realizado por el analizador de señal de entrada 600, pero sin un análisis de señal real como en el otro caso. En este último caso, el análisis se realiza en el flujo de bits, y la señal de entrada consiste tanto de la señal de mezcla descendente como de los datos del flujo de bits.
Además, el aparato para generar una descripción de campo de sonido ilustrada en la figura 4 comprende un bloque de cálculo de ganancias direccionales 410, un divisor 420, un combinador 430, un decodificador 440 y un banco de filtros de síntesis 450. El banco de filtros de síntesis 450 recibe datos para una representación Ambisonics de alto orden o una señal que se reproducirá mediante auriculares, es decir, una señal binaural, o una señal que se va a reproducir mediante altavoces arreglados en una determinada configuración de altavoz que representa una señal multicanal adaptada a la configuración de altavoz específica de la descripción de campo de sonido que es típicamente independiente de la configuración de altavoz específica.
Además, el aparato para generar la descripción de campo de sonido comprende un generador de componentes de sonido que generalmente consiste en el generador de componentes de bajo orden 810 que comprende el bloque de “generar componentes de bajo orden” y el bloque de “mezclar componentes de bajo orden”. Además, se proporciona el generador de componentes de orden medio 820 que consiste en el bloque de señal de referencia generado 821, descorrelacionadores 823, 824 y el bloque de componentes de orden medio de mezcla 825. Y, el generador de componentes de alto orden 830 también se proporciona en la figura 4 que comprende el bloque de componentes de alto orden de mezcla 822. Además, se proporciona un bloque de cálculo de ganancias de compensación (difusa) ilustrado en los números de referencia 910, 920, 930, 940. Los números de referencia 910 a 940 se explican adicionalmente con referencia a las figuras 12a a 12c.
Aunque no se ilustra en la figura 4, al menos la compensación de energía de señal difusa no solo se realiza en el generador de componentes de sonido para el bajo orden como se ilustra explícitamente en la figura 4, sino que esta compensación de energía también se puede realizar en el mezclador de componentes de orden medio 825.
Además, la figura 4 ilustra la situación, en la que todo el procesamiento se lleva a cabo en mosaicos de tiempo/frecuencia individuales generados por el banco de filtros de análisis 400. Por lo tanto, para cada mosaico de tiempo/frecuencia, se realiza un cierto valor DOA, un cierto valor de difusión y un cierto procesamiento para aplicar estos valores y también para aplicar las diferentes compensaciones. Además, los componentes de campo de sonido también se generan/sintetizan para los mosaicos de tiempo/frecuencia individuales y la combinación realizada por el combinador 430 también tiene lugar dentro del dominio de tiempo/frecuencia para cada mosaico de tiempo/frecuencia individual, y, además, el procedimiento del decodificador HOA 440 se realiza en el dominio de tiempo/frecuencia y, la síntesis de banco de filtros 450 luego genera las señales de dominio de tiempo para la banda de frecuencia completa con componentes HOA de ancho de banda completo, con señales binaurales de ancho de banda completo para los auriculares o con señales de altavoz de ancho de banda completo para altavoces de una determinada configuración de altavoz.
Realizaciones de la presente invención aprovechan dos principios principales:
• Los componentes Ambisonics de sonido difuso P d iff i se pueden restringir para que se sinteticen solo para los componentes de bajo orden de la señal Ambisonics sintetizada hasta el orden L<H.
• A partir de, la señal de mezcla descendente, K componentes Ambisonics de bajo orden generalmente se pueden extraer, para lo cual no se requiere una síntesis completa.
o En caso de mezcla descendente mono, la mezcla descendente generalmente representa el componente omnidireccional W de la señal Ambisonics.
o En caso de mezcla estéreo descendente, los canales izquierdo (L) y derecho (R) se pueden transformar fácilmente en componentes Ambisonics W e Y.
W = L R
Y = L - R
o En caso de una mezcla descendente FOA, los componentes Ambisonics de orden 1 ya están disponibles. Alternativamente, el FOA se puede recuperar de una combinación lineal de una señal DMX de mezcla descendente de 4 canales que está, por ejemplo, en formato A:
Figure imgf000011_0001
Con
1 sen 8 0 cos 8
T = 0.5 1 — sen# 0 cos 8
i 0 sen# -co s 8
.1 0 — sen 8 — cos 9
y
1
Q = cos 1
v f
A través de estos dos principios, también se pueden aplicar dos mejoras:
• La pérdida de energía al no modelar los componentes Ambisonics de sonido difuso hasta el orden H se puede compensar amplificando los componentes Ambisonics de bajo orden extraídos de la señal de mezcla descendente.
• En las aplicaciones de transmisión donde la señal de mezcla descendente se codifica con pérdida, la señal de mezcla descendente transmitida se corrompe por errores de cuantificación que se pueden mitigar restringiendo la relación de energía de los componentes Ambisonics de bajo orden K extraídos de la señal de mezcla descendente.
La figura 4 ilustra una realización del nuevo método. Una diferencia con respecto al estado de la ilustración en la figura 3 es la diferenciación del proceso de mezcla que difiere de acuerdo con el orden del componente Ambisonics que se va a sintetizar. Los componentes de los bajos órdenes se determinan principalmente a partir de los componentes de bajo orden extraídos directamente de la señal de mezcla descendente. La mezcla de los componentes de bajo orden puede ser tan simple como copiar directamente los componentes extraídos a la salida.
Sin embargo, en la realización preferida, los componentes extraídos se procesan adicionalmente mediante la aplicación de una compensación de energía, función de la difusión y los órdenes de truncamiento L y H, o mediante la aplicación de una normalización de energía, función de la difusión y las direcciones de sonido, o mediante la aplicación de ambos.
La mezcla de los componentes de orden medio es en realidad similar al método del estado de la técnica (aparte de una compensación de difusión opcional), y genera y combina tanto componentes Ambisonics de sonido directos como difusos hasta el orden de truncamiento L pero ignorando los componentes de bajo orden K ya sintetizados por la mezcla de componentes de bajo orden. La mezcla de los componentes de alto orden consiste en generar los componentes Ambisonics restantes(H — L 1 )2 hasta el orden de truncamiento H, pero solo para el sonido directo e ignorando el sonido difuso. A continuación se detalla la mezcla o generación de los componentes de bajo orden.
El primer aspecto se refiere a la compensación de energía generalmente ilustrada en la figura 6 que proporciona una descripción general de procesamiento en el primer aspecto. El principio se explica para el caso específico para K = (L 1 )2 sin pérdida de generalidad.
La figura 5 muestra una descripción general del procesamiento. El vector de entrada bL es una señal Ambisonics físicamente correcta de orden de truncamiento L. Contiene (L + 1 )2 coeficientes denotados por Bm í, donde 0 < l < L es el orden del coeficiente y - l < m < l es el modo. Típicamente, la señal Ambisonics bL se representa en el dominio de tiempo-frecuencia.
En el bloque de síntesis HAO 820, 830, los coeficientes Ambisonics se sintetizan desde bL hasta un orden máximo H , , donde H > L. El vector resultante yH contiene los coeficientes sintetizados de orden L < l < H, denotados por Ym, i . La síntesis HOA normalmente depende de la difusión ^ (o una medición similar), que describe cuán difuso es el campo de sonido para el punto de tiempo-frecuencia actual. Normalmente, los coeficientes en yH solo se sintetizan si el campo de sonido se vuelve no difuso, mientras que en situaciones difusas, los coeficientes se vuelven cero. Esto evita artefactos en situaciones difusas, pero también da como resultado una pérdida de energía. Más adelante se explican los detalles de la síntesis HOA.
Para compensar la pérdida de energía en situaciones difusas mencionadas anteriormente, aplicamos una compensación de energía bL en el bloque de compensación de energía 650, 750. La señal resultante se denota por xL y tiene el mismo orden máximo L que ó¿. La compensación de energía depende de la difusión (o medición similar) e incrementa la energía de los coeficientes en situaciones difusas de modo que se compensa la pérdida de energía de los coeficientes en yH. Más adelante se explican los detalles.
En el bloque de combinación, los coeficientes compensados en energía en xL se combinan 430 con los coeficientes sintetizados en yH para obtener la señal de salida Ambisonics zH que contiene todos los (f l+ ^"coeficientes, es decir,
Figure imgf000012_0001
Posteriormente, una síntesis HOA se explica como una realización. Existen varios enfoques del estado de la técnica para sintetizar los coeficientes HOA en yH, por ejemplo, una renderización basada en covarianza o una renderización directa utilizando codificación de audio direccional (DirAC). En el caso más simple, los coeficientes en yH se sintetizan a partir del componente omnidireccional B q en usando
Ylm = £ 0 V l— YG{n(^,9 ).
Aquí, (<p, 9) es la dirección de llegada (DOA) del sonido y G{n(y, 9) es la ganancia correspondiente del coeficiente Ambisonics de orden l y modo m. Normalmente, G¡n(^, 9) corresponde al patrón de directividad de valor real de la bien conocida función de armónico esférico de orden l y modo m, evaluada en la DOA (<p, 9) . La difusión ^ se vuelve 0 si el campo de sonido no es difuso, y 1 si el campo de sonido es difuso. En consecuencia, los coeficientes Yjm calculados por encima del orden L se vuelven cero en situaciones de registro difuso. Se señala que los parámetros y , 9 y ^ se pueden estimar a partir de una señal Ambisonics de primer orden basada en el vector de intensidad de sonido activo como se explica en los documentos de DirAC originales.
Posteriormente se analiza la compensación de energía de los componentes de sonido difuso. Para derivar la compensación de energía, consideramos un modelo de campo de sonido típico donde el campo de sonido está compuesto por un componente de sonido directo y un componente de sonido difuso, es decir, la señal omnidireccional se puede escribir como
B0 = PS pd,
donde Ps es el sonido directo (por ejemplo, onda plana) y Pd es el sonido difuso. Asumiendo este modelo de campo de sonido y una normalización SN3D de los coeficientes Ambisonics, la potencia esperada de los coeficientes físicamente correctos Bm,i está dada por
E i m 2] = EUG^cp, 0 ) |2}O S Q ^a .
Aquí, O s = E{|PS|2} es la potencia del sonido directo potencia del sonido difuso. Además,
Ql es el factor de directividad de los coeficientes del Z-é o por Q¡ = 1/y ¡ , donde N = 21 1 es el número de coeficientes por orden l. Para calcul nergía, podemos considerar la DOA (<p, 9) (compensación de energía más precisa) o s una variable aleatoria distribuida uniformemente (enfoque más práctico). En este último c
Figure imgf000013_0001
de B™ es
E{IB¡nI2} = QlOs QlOd.
En lo siguiente, permítase que bH denote una señal Ambisonics físicamente correcta de orden máximo H. Usando las ecuaciones anteriores, la potencia total esperada de bH está dada por
Figure imgf000013_0002
De manera similar, cuando se utiliza la definición de difusión común ^ = la potencia total esperada de la ^s+^d
señal Ambisonics sintetizada yH está dada por
Figure imgf000013_0003
La compensación energética se lleva a cabo multiplicando un factor g por bL, es decir,
x L = g b L.
La potencia total esperada de la señal Ambisonics de salida zH ahora está dada por
H l
^ ^ E {|Z]n\2} = g 2(L 1 )O s g 2(L 1)Od (H - L)Os .
1=0 m=-l potencia total xL potencia totall yH
La potencia total esperada de zH debe coincidir con la potencia total esperada de bH. Por lo tanto, el factor de compensación al cuadrado se calcula como
3 2 (L 1)Os (H 1)Od
(L 1 ) ( ° s + ° d )
Esto se puede simplificar para
Figure imgf000013_0004
donde ^ es la difusión, L es el orden máximo de la señal Ambisonics de entrada y H es el orden máximo de la señal Ambisonics de salida.
Es posible adoptar el mismo principio K < (L V)2 donde los (L V)2 — K componentes Ambisonics de sonido difuso se sintetizan utilizando descorrelacionadores y una respuesta difusa promedio.
En ciertos casos, se sintetizan K < (L 1~)2 y componentes de sonido no difuso. Es especialmente cierto para altas frecuencias donde las fases absolutas son inaudibles y el uso de descorrelacionadores es irrelevante. Los componentes de sonido difuso luego se pueden modelar mediante la compensación de energía mediante el cálculo del orden Lk y el número de modos mk correspondientes a los K componentes de bajo orden, donde K representa un número de componentes difusos en el primer grupo:
Figure imgf000014_0001
La ganancia de compensación se convierte entonces en:
Figure imgf000014_0002
Posteriormente, se ilustran realizaciones de la normalización de energía de componentes de sonido directo correspondientes al segundo aspecto ilustrado generalmente en la figura 7. En lo anterior, se asumió que el vector de entrada bL era una señal Ambisonics físicamente correcta de orden máximo L. Sin embargo, la señal de entrada de mezcla descendente se puede ver afectada por errores de cuantificación, que pueden romper la relación de energía. Esta relación se puede restaurar normalizando la señal de entrada de mezcla descendente:
xL = gsbL.
Dada la dirección del sonido y los parámetros de difusión, los componentes directos y difusos se pueden expresar como:
Figure imgf000014_0007
La potencia esperada de acuerdo con el modelo se puede expresar entonces para cada componente de xL como:
Figure imgf000014_0003
La ganancia de compensación se convierte entonces en:
Figure imgf000014_0006
donde 0 < l < L y — l < m < l
Alternativamente, la potencia esperada de acuerdo con el modelo se puede expresar entonces para cada componente de xL como:
Figure imgf000014_0004
La ganancia de compensación se convierte entonces en:
Figure imgf000014_0005
donde 0 < l < L y — l < m < l
B q y B]m son valores complejos y para el cálculo de gs,la normal o magnitud o valor absoluto o la representación de coordenadas polares del valor complejo se toma y se eleva al cuadrado para obtener la potencia o energía esperada como la medición relacionada con energía o amplitud.
La compensación de energía de los componentes de sonido difuso y la normalización de energía de los componentes de sonido directo se pueden lograr conjuntamente mediante la aplicación de una ganancia de la forma:
ds,d = 9- 9s
En una implementación real, la ganancia de normalización obtenida, la ganancia de compensación o la combinación de las dos se pueden limitar para evitar grandes factores de ganancia que dan como resultado una ecualización severa que podría conducir a artefactos de audio. Por ejemplo, las ganancias se pueden limitar a estar entre -6 y 6 dB. Además, las ganancias se pueden suavizar con respecto al tiempo y/o la frecuencia (por un promedio móvil o un promedio recursivo) para evitar cambios abruptos y para luego el proceso de estabilización.
Posteriormente, se resumirán algunos de los beneficios y ventajas de realizaciones preferidas sobre el estado de la técnica.
• Síntesis HOA simplificada (menos compleja) dentro de DirAC.
o Síntesis más directa sin una síntesis completa de todos los componentes Ambisonics.
o Reducción del número de descorrelacionadores requeridos y su impacto en la calidad final.
• Reducción de los artefactos de codificación introducidos en la señal de mezcla descendente durante la transmisión.
• Separación del procesamiento de tres pedidos diferentes para tener una compensación óptima entre calidad y eficiencia de procesamiento.
Posteriormente, se resumen varios aspectos inventivos incluidos parcial o totalmente en la descripción anterior que se pueden usar independientemente entre sí o en combinación entre sí o solo en una determinada combinación que combina solo dos aspectos seleccionados arbitrariamente de los tres aspectos.
Primer aspecto: Compensación de energía para los componentes de sonido difuso
La presente invención parte del hecho de que cuando se genera una descripción de campo de sonido a partir de una señal de entrada que comprende uno o más componentes de señal, la señal de entrada se puede analizar para obtener al menos datos de difusión para el campo de sonido representado por la señal de entrada. El análisis de señal de entrada puede ser una extracción de datos de difusión asociados como metadatos al uno o más componentes de señal o el análisis de señal de entrada puede ser un análisis de señal real, cuando, por ejemplo, la señal de entrada tiene dos, tres o incluso más componentes de señal tal como una representación de primer orden completa tal como una representación de formato B o una representación de formato A.
Ahora, hay un generador de componentes de sonido que genera uno o más componentes de campo de sonido de un primer grupo que tienen un componente directo y un componente difuso. Y, además, se generan uno o más componentes de campo de sonido de un segundo grupo, donde, para este segundo grupo, el componente de campo de sonido solo tiene componentes directos.
A diferencia de una generación de campo de sonido completo, esto dará lugar a un error de energía siempre que el valor de difusión para el cuadro actual o el intervalo de tiempo/frecuencia actual considerado tengan un valor diferente de cero.
Con el fin de compensar este error de energía, se realiza una compensación de energía al generar el primer grupo de componentes de campo de sonido. Esta compensación de energía depende de los datos de difusión y un número de componentes de campo de sonido en el segundo grupo que representan la pérdida de energía debido a la no síntesis de componentes difusos para el segundo grupo.
En una realización, el generador de componentes de sonido para el primer grupo puede ser la ramificación de bajo orden de la figura 4 que extrae los componentes de campo de sonido del primer grupo mediante la copia o realización de una suma ponderada, es decir, sin realizar una evaluación de función de base espacial compleja. Por lo tanto, el componente de campo de sonido del primer grupo no está disponible por separado como una porción directa y una porción difusa. Sin embargo, aumentar todo el componente de campo de sonido del primer grupo con respecto a su energía aumenta automáticamente la energía de la porción difusa.
Alternativamente, el generador de componentes de sonido para uno o más componentes de campo de sonido del primer grupo también puede ser la ramificación de orden medio en la figura 4 que se basa en una síntesis de porción directa separada y síntesis de porción difusa. Aquí, tenemos la porción difusa disponible por separado y, en una realización, la porción difusa del componente de campo de sonido se incrementa pero no la porción directa para compensar la pérdida de energía debido al segundo grupo. Alternativamente, sin embargo, se podría, en este caso, aumentar la energía del componente de campo de sonido resultante después de haber combinado la porción directa y la porción difusa.
Alternativamente, el generador de componentes de sonido para uno o más componentes de campo de sonido del primer grupo también puede ser las ramificaciones de componentes de bajo y medio orden en la figura 4. La compensación de energía se puede aplicar entonces solo a los componentes de bajo orden o a los componentes de bajo y medio orden.
Segundo aspecto: Normalización Energética de Componentes de Sonido Directo
En esta invención, se parte de la suposición de que la generación de la señal de entrada que tiene dos o más componentes de sonido estuvo acompañada por algún tipo de cuantificación. Típicamente, cuando se consideran dos o más componentes de sonido, un componente de sonido de la señal de entrada puede ser una señal omnidireccional, tal como señales de micrófono omnidireccionales W en una representación de formato B, y los otros componentes de sonido pueden ser señales direccionales individuales, tal como las señales de micrófono X, Y, Z en una representación de formato B, es decir, una representación Ambisonics de primer orden.
Cuando un codificador de señal entra en una situación en la que los requisitos de velocidad de bits son demasiado altos para una operación de codificación perfecta, entonces un procedimiento típico es que el codificador codifica la señal omnidireccional lo más exacta posible, pero el codificador solo gasta un número menor de bits para los componentes direccionales que incluso pueden ser tan bajos que uno o más componentes direccionales se reducen a cero completamente. Esto representa un desajuste y pérdida de energía en la información direccional.
Ahora, sin embargo, se tiene el requisito que, por ejemplo, se obtiene al tener información secundaria paramétrica explícita que dice que un cierto cuadro o intervalo de tiempo/frecuencia tiene una cierta difusión que es menor que uno y una dirección de sonido. Por lo tanto, puede surgir la situación de que uno tiene, de acuerdo con los datos paramétricos, un cierto componente no difuso con una cierta dirección mientras que, en el otro lado, la señal omnidireccional transmitida y las señales direccionales no reflejan esta dirección. Por ejemplo, la señal omnidireccional se podría haber transmitido sin ninguna pérdida significativa de información mientras que la señal direccional, Y, responsable de la dirección izquierda y derecha se podría haber establecido a cero por falta de razón de bits. En este escenario, incluso si en la escena de audio original un componente de sonido directo proviene de la izquierda, las señales transmitidas reflejarán una escena de audio sin ninguna característica direccional izquierda-derecha.
Por lo tanto, de acuerdo con la segunda invención, se realiza una normalización de energía para los componentes de sonido directo con el fin de compensar la ruptura de la relación de energía con la ayuda de datos de dirección/difusión que se incluyen explícitamente en la señal de entrada o se derivan de la señal de entrada en sí.
Esta normalización de energía se puede aplicar en el contexto de todas las ramificaciones de procesamiento individuales de la figura 4 ya sea en conjunto o solo por separado.
La presente invención permite utilizar los datos paramétricos adicionales recibidos de la señal de entrada o derivados de porciones no comprometidas de la señal de entrada y, por lo tanto, los errores de codificación que se incluyen en la señal de entrada por alguna razón se pueden reducir utilizando los datos de dirección y difusión adicionales derivados de la señal de entrada.
En esta invención, se estima una medición relacionada con energía o amplitud para un componente omnidireccional derivado de la señal de entrada y una medición adicional relacionada con energía o amplitud para el componente direccional derivado de la señal de entrada y se utiliza para la compensación de energía junto con los datos de dirección y los datos de difusión. Esta medición relacionada con energía o amplitud puede ser la amplitud en sí misma o la potencia, es decir, las amplitudes al cuadrado y sumadas o puede ser la energía tal como potencia multiplicada por un período de tiempo determinado o puede ser cualquier otra medición derivada de la amplitud con un exponente para una amplitud que es diferente de una y una suma posterior. Por lo tanto, una medición adicional relacionada con energía o amplitud también podría ser una intensidad con un exponente de tres en comparación con la potencia que tiene un exponente de dos.
Tercer aspecto: Implementación de sistema con diferentes procedimientos de procesamiento para los diferentes órdenes.
En la tercera invención, que se ilustra en la figura 4, se genera un campo de sonido usando una señal de entrada que comprende una señal mono o una señal de múltiples componentes que tiene dos o más componentes de señal. Un analizador de señal obtiene datos de dirección y difusión de la señal de entrada ya sea mediante un análisis de señal explícito en el caso de que la señal de entrada tenga dos o más componentes de señal o mediante el análisis de la señal de entrada con el fin de extraer datos de dirección y difusión incluidos en la señal de entrada como metadatos.
Un generador de componentes de bajo orden genera la descripción de sonido de bajo orden de la señal de entrada hasta un orden predeterminado y realiza esta tarea para los modos disponibles que se pueden extraer de la señal de entrada al copiar un componente de señal de la señal de entrada o mediante la realización de una combinación ponderada de componentes en la señal de entrada.
El generador de componentes de orden medio genera una descripción de sonido de orden medio que tiene componentes de órdenes por encima del orden predeterminado o en el orden predeterminado y por encima del modo predeterminado e inferior o igual a un primer orden de truncamiento usando una síntesis de al menos un componente directo y una síntesis de al menos un componente difuso usando los datos de dirección y los datos de difusión obtenidos del analizador de modo que la descripción de sonido de orden medio comprenda una contribución directa y una contribución difusa.
Además, un generador de componentes de alto orden genera una descripción de sonido de alto orden que tiene componentes de órdenes por encima del primer orden truncado e inferior o igual a un segundo orden de truncamiento usando una síntesis de al menos un componente directo sin ninguna síntesis de componente difuso de modo que la descripción de sonido de alto orden tiene una contribución directa solamente.
Esta invención de sistema tiene ventajas significativas en que se realiza una generación de campo de sonido de bajo orden lo más exacta posible mediante la utilización de la información incluida en la señal de entrada lo mejor posible mientras que, al mismo tiempo, las operaciones de procesamiento para realizar la descripción de sonido de bajo orden requieren bajos esfuerzos debido al hecho de que solo se requieren operaciones de copia u operaciones de combinación ponderadas tales como sumas ponderadas. Por lo tanto, se realiza una descripción de sonido de bajo orden de alta calidad con una cantidad mínima de potencia de procesamiento requerida.
La descripción de sonido de orden medio requiere más potencia de procesamiento, pero permite generar una descripción de sonido de orden medio muy precisa que tiene contribuciones directas y difusas usando los datos de dirección analizados y datos de difusión típicamente hasta un orden, es decir, el alto orden, por debajo del cual todavía se requiere una contribución difusa en una descripción de campo de sonido desde un punto de vista perceptivo.
Finalmente, el generador de componentes de alto orden genera una descripción de sonido de alto orden solo mediante la realización de una síntesis directa sin realizar una síntesis difusa. Esto, una vez más, reduce la cantidad de potencia de procesamiento requerida debido al hecho de que solo se generan los componentes directos mientras que, al mismo tiempo, la omisión de la síntesis difusa no es tan problemática desde un punto de vista perceptivo.
Naturalmente, la tercera invención se puede combinar con la primera invención y/o la segunda invención, pero incluso cuando, por algunas razones, no se aplica la compensación por no realizar la síntesis difusa con el generador de componentes de alto orden, el procedimiento sin embargo da por resultado un compromiso óptimo entre la potencia de procesamiento por un lado y la calidad de audio por otro lado. Lo mismo es cierto para la realización de la normalización de energía de bajo orden que compensa la codificación utilizada para generar la señal de entrada. En una realización, esta compensación se realiza adicionalmente, pero incluso sin esta compensación, se obtienen ventajas no triviales significativas.
La figura 4 ilustra, como una ilustración simbólica de una transmisión paralela, el número de componentes procesados por cada generador de componentes. El generador de componentes de bajo orden 810 ilustrado en la figura 4 genera una descripción de campo de sonido de bajo orden de la señal de entrada hasta un orden predeterminado y un modo predeterminado, donde el generador de componentes de bajo orden 810 se configura para derivar la descripción de campo de sonido de bajo orden al copiar o tomar la señal de entrada tal como es o la realización de una combinación ponderada de los canales de la señal de entrada. Como se ilustra entre el bloque de componentes de bajo orden de generador y el bloque de componentes de bajo orden de mezcla, se procesan K componentes individuales por este generador de componentes de bajo orden 810. El generador de componentes de orden medio 820 genera la señal de referencia y, como una situación de ejemplo, se describe que se utiliza la señal omnidireccional incluida en la señal de mezcla descendente en la entrada o la salida del banco de filtros 400. Sin embargo, cuando la señal de entrada tiene el canal izquierdo y el canal derecho, entonces la señal mono obtenida mediante la adición del canal izquierdo y derecho se calcula por el generador de señal de referencia 821. Además, el número de (L 1)2 - K componentes se genera por el generador de componentes de orden medio. Además, el generador de componentes de alto orden genera un número de (H 1)2 - (L 1)2 componentes de modo que, al final, a la salida del combinador, (H 1)2 componentes están allí desde el único o varios (número pequeño) componentes en la entrada en el banco de filtros 400. El divisor se configura para proporcionar los datos direccionales/de difusión individuales a los generadores de componentes correspondientes 810, 820, 830. Por lo tanto, el generador de componentes de bajo orden recibe los K elementos de datos. Esto se indica mediante la línea que recopila el divisor 420 y el bloque de componentes de bajo orden de mezcla.
Además, el bloque de componentes de orden de mezcla 825 recibe (L 1)2 - K elementos de datos, y el bloque de componentes de alto orden de mezcla recibe (H 1)2 - (L 1)2 elementos de datos. De manera correspondiente, los bloques de componentes de mezcla individuales proporcionan un cierto número de componentes de campo de sonido al combinador 430.
Posteriormente, se ilustra una implementación preferida del generador de componentes de bajo orden 810 de la figura 4 con respecto a la figura 9. La señal de entrada se ingresa en un investigador de señales de entrada 811, y el investigador de señales de entrada 811 proporciona la información adquirida a un selector de modo de procesamiento 812. El selector de modo de procesamiento 812 se configura para seleccionar una pluralidad de diferentes modos de procesamiento que se ilustran esquemáticamente como un bloque de copia 813 indicado por el número 1, un bloque de toma (tal como es) 814 indicado por el número 2, un bloque de combinación lineal (primer modo) indicado por el número 3 y por el número de referencia 815, y un bloque de combinación lineal (segundo modo) 816 indicado por el número 4. Por ejemplo, cuando el investigador de señales de entrada 811 determina un cierto tipo de señal de entrada, entonces el selector de modo de procesamiento 812 selecciona uno de la pluralidad de diferentes modos de procesamiento como se muestra en la tabla de la figura 9. Por ejemplo, cuando la señal de entrada es una señal omnidireccional W o una señal mono entonces se selecciona copiar 813 o tomar 814. Sin embargo, cuando la señal de entrada es una señal estéreo con un canal izquierdo o un canal derecho o una señal multicanal con 5.1 o 7.1 canales, entonces se selecciona el bloque de combinación lineal 815 para derivar, de la señal de entrada, la señal omnidireccional W al sumar izquierda y derecha y al calcular un componente direccional mediante el cálculo de la diferencia entre izquierda y derecha.
Sin embargo, cuando la señal de entrada es una señal estéreo conjunta, es decir, una representación media/lateral, entonces se selecciona el bloque 813 o el bloque 814 ya que la señal media ya representa la señal omnidireccional y la señal lateral ya representa el componente direccional.
De manera similar, cuando se determina que la señal de entrada es una señal Ambisonics de primer orden (FOA), el selector de modo de procesamiento 812 selecciona el bloque 813 o el bloque 814. Sin embargo, cuando se determina que la señal de entrada es una señal de formato A, entonces se selecciona el bloque de combinación lineal (segundo modo) 816 para realizar una transformación lineal en la señal de formato A para obtener la señal Ambisonics de primer orden que tiene el componente omnidireccional y componentes tridireccionales que representan los K bloques de componentes de bajo orden generados por el bloque 810 de la figura 8 o figura 6. Además, la figura 9 ilustra un compensador de energía 900 que se configura para realizar una compensación de energía a la salida de uno de los bloques 813 a 816 con el fin de realizar la compensación difusa y/o la compensación directa con los valores de ganancia correspondientes g y gs.
Por lo tanto, la implementación del compensador de energía 900 corresponde al procedimiento del generador de componentes de sonido 650 o el generador de componentes de sonido 750 de la figura 6 y la figura 7, respectivamente.
La figura 10 ilustra una implementación preferida del generador de componentes de orden medio 820 de la figura 8 o una parte del generador de componentes de sonido 650 para la flecha inferior directa/difusa del bloque 650 relacionada con el primer grupo. En particular, el generador de componentes de orden medio 820 comprende el generador de señal de referencia 821 que recibe la señal de entrada y genera la señal de referencia al copiar o tomar tal como es cuando la señal de entrada es una señal mono o al derivar de la señal de referencia de la señal de entrada al calcular como se analizó antes o como se ilustra en WO 2017/157803 A1 incorporado en el presente documento mediante referencia con toda su enseñanza.
Además, la figura 10 ilustra la calculadora de ganancia direccional 410 que se configura para calcular, a partir de determinada información DOA (O, 0) y a partir de un determinado número de modo m y un determinado número de orden l la ganancia direccional G lm. En la realización preferida, donde el procesamiento se realiza en el dominio de tiempo/frecuencia para cada mosaico individual referenciado por k, n, la ganancia direccional se calcula para cada mosaico de tiempo/frecuencia. El ponderador 820 recibe la señal de referencia y los datos de difusión para el mosaico de tiempo/frecuencia determinado y el resultado del ponderador 820 es la porción directa. La porción difusa se genera mediante el procesamiento realizado por el filtro de descorrelación 823 y el ponderador posterior 824 que recibe el valor de difusión ^ para el periodo de tiempo determinado y el intervalo de frecuencia y, en particular, que recibe la respuesta promedio a un determinado modo m y orden l indicado por Di generado por el proveedor de respuesta promedio 826 que recibe, como entrada, el modo requerido m y el orden requerido i.
El resultado del ponderador 824 es la porción difusa y la porción difusa se suma a la porción directa por el sumador 825 con el fin de obtener un determinado componente de campo de sonido de orden medio para un determinado modo m y un determinado orden l. Se prefiere aplicar la ganancia de compensación difusa analizada con respecto a la figura 6 solo a la porción difusa generada por el bloque 823. Esto se puede hacer ventajosamente dentro del procedimiento realizado por el ponderador (difuso). Por lo tanto, solo se mejora la porción difusa en la señal para compensar la pérdida de energía difusa incurrida por componentes superiores que no reciben una síntesis completa como se ilustra en la figura 10.
En la figura 11 se ilustra una generación de solo porción directa para el generador de componentes de alto orden. Básicamente, el generador de componentes de alto orden se implementa de la misma manera que el generador de componentes de orden medio con respecto a la ramificación directa, pero no comprende los bloques 823, 824, 825 y 826. Por lo tanto, el generador de componentes de alto orden solo comprende el ponderador (directo) 822 que recibe datos de entrada de la calculadora de ganancia direccional 410 y que recibe una señal de referencia del generador de señal de referencia 821. Preferentemente, solo se genera una única señal de referencia para el generador de componentes de alto orden y el generador de componentes de orden medio. Sin embargo, ambos bloques también pueden tener generadores de señales de referencia individuales como sea el caso. Sin embargo, se prefiere tener solo un único generador de señales de referencia. Por lo tanto, el procesamiento realizado por el generador de componentes de alto orden es extremadamente eficiente, ya que solo se debe realizar una única dirección de ponderación con una cierta ganancia direccional G lm con una cierta información de difusión ^ para el mosaico de tiempo/frecuencia. Por lo tanto, los componentes de campo de sonido de alto orden se pueden generar de manera extremadamente eficiente y rápida y cualquier error debido a la no generación de componentes difusos o el no uso de componentes difusos en la señal de salida se compensa fácilmente mediante la mejora de los componentes de campo de sonido de bajo orden o la única porción preferentemente difusa de los componentes de campo de sonido de orden medio.
Típicamente, la porción difusa no estará disponible por separado dentro de los componentes de campo de sonido de bajo orden generados mediante copia o mediante la realización de una combinación lineal (ponderada). Sin embargo, mejorar la energía de dichos componentes mejora automáticamente la energía de la porción difusa. La mejora concurrente de la energía de la porción directa no es problemática como se ha descubierto por los inventores.
Posteriormente, se hace referencia a las figuras 12A a 12C para ilustrar aún más el cálculo de las ganancias de compensación individual.
La figura 12a ilustra una implementación preferida del generador de componentes de sonido 650 de la figura 6. La ganancia de compensación (difusa) se calcula, en una realización, utilizando el valor de difusión, el orden máximo H y el orden de truncamiento L. En la otra realización, la ganancia de compensación difusa se calcula utilizando el parámetro Lk derivado de la cantidad de componentes en la ramificación de procesamiento de bajo orden 810. Además, el parámetro mk se utiliza dependiendo del parámetro lk y del número K de componentes realmente generados por el generador de componentes de bajo orden. Además, también se utiliza el valor N que depende de Lk. Ambos valores H, L en la primera realización o H, Lk, mk generalmente representan el número de componentes de campo de sonido en el segundo grupo (relacionado con el número de componentes de sonido en el primer grupo). Por lo tanto, cuantos más componentes haya para los cuales no se sintetice ningún componente difuso, mayor será la ganancia de compensación de energía. Por otro lado, cuanto mayor sea el número de componentes de campo de sonido de bajo orden que se pueden compensar, es decir, multiplicarse por el factor de ganancia, menor puede ser el factor de ganancia. Generalmente, el factor de ganancia g siempre será mayor que 1.
La figura 12a ilustra el cálculo del factor de ganancia g mediante la calculadora de ganancia de compensación (difusa) 910 y la aplicación posterior de este factor de ganancia al componente (de bajo orden) que se "corrige" como se hace mediante el aplicador de ganancia de compensación 900. En caso de números lineales, el aplicador de ganancia de compensación será un multiplicador, y en caso de números logarítmicos, el aplicador de ganancia de compensación será un sumador. Sin embargo, otras implementaciones de la aplicación de ganancia de compensación se pueden implementar dependiendo de la naturaleza específica y la forma de calcular la ganancia de compensación por el bloque 910. Por lo tanto, la ganancia no necesariamente tiene que ser una ganancia multiplicativa, sino que también puede ser cualquier otra ganancia.
La figura 12b ilustra una tercera implementación para el procesamiento de ganancia de compensación (directa). Una calculadora de ganancia de compensación (directa) 920 recibe, como entrada, la medición relacionada con energía o amplitud para el componente omnidireccional indicado como "potencia omnidireccional" en la figura 12b. Además, la segunda medición relacionada con energía o amplitud para el componente direccional también se ingresa en el bloque 920 como "direccional de potencia". Además, la calculadora de ganancia de compensación directa 920 recibe además la información Ql o, alternativamente, la información N. N es igual a (2l 1) que es el número de coeficientes por orden l, y Q i es igual a 1/N. Además, la ganancia direccional G lm para el mosaico de tiempo/frecuencia determinado (k, n) también se requiere para el cálculo de la ganancia de compensación (directa). La ganancia direccional es los mismos datos que se derivan de la calculadora de ganancia direccional 410 de la figura 4, a modo de ejemplo. La ganancia de compensación (directa) g se reenvía desde el bloque 920 al aplicador de ganancia de compensación 900 que se puede implementar de manera similar al bloque 900, es decir, recibe el componente o los componentes que se van a "corregir" y produce el componente corregido o los componentes corregidos.
La figura 12c ilustra una implementación preferida de la combinación de la compensación de energía de los componentes de sonido difusos y la normalización de energía de la compensación de componentes de sonido directos que se van a realizar conjuntamente. Con este fin, la ganancia de compensación (difusa) g y la ganancia de compensación (directa) gs se introducen en un combinador de ganancia 930. El resultado del combinador de ganancia (es decir, la ganancia combinada) se ingresa en un manipulador de ganancia 940 que se implementa como un posprocesador y realiza una limitación a un valor mínimo o máximo o que aplica una función de compresión con el fin de realizar algún tipo de limitación más suave o realiza un suavizado entre los mosaicos de tiempo o frecuencia. La ganancia manipulada que se limita se comprime o suaviza o procesa de otras maneras de posprocesamiento y la ganancia posprocesada se aplica luego por el aplicador de ganancia a uno o más componentes de bajo orden para obtener componentes de bajo orden corregidos.
En caso de ganancias lineales g, gs, el combinador de ganancias 930 se implementa como un multiplicador. En caso de ganancias logarítmicas, el combinador de ganancias se implementa como un sumador. Además, con respecto a la implementación del estimador de la figura 7 indicado en el número de referencia 620, se describe que el estimador 620 puede proporcionar cualquier medición relacionada con energía o amplitud para el componente omnidireccional y direccional siempre que la torre aplicada a la amplitud sea mayor que 1. En el caso de una potencia como la medición relacionada con energía o amplitud, el exponente es igual a 2. Sin embargo, también son útiles exponentes entre 1,5 y 2,5. Además, incluso exponentes o potencias más altos son útiles, tal como una potencia de 3 aplicada a la amplitud correspondiente a un valor de sonoridad en lugar de un valor de potencia. Por lo tanto, en general, se prefieren potencias de 2 o 3 para proporcionar las mediciones relacionadas con energía o amplitud, pero también se prefieren generalmente potencias entre 1,5 y 4.
Una señal de audio codificada de forma inventiva se puede almacenar en un medio de almacenamiento digital o un medio de almacenamiento no transitorio o se puede transmitir en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.
Aunque que algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o aparato corresponde a una etapa de procedimiento o una característica de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de un paso de método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLa Sh , que tenga señales de control electrónicamente legibles almacenadas en el mismo, que cooperan (o sean capaces de cooperar) con un sistema informático programable de manera que se realiza el método respectivo.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de modo que se lleva a cabo uno de los métodos descritos en el presente documento.
En general, realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, el código de programa que es operativo para realizar uno de los métodos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede por ejemplo almacenar en un portador legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina o un medio de almacenamiento no transitorio.
En otras palabras, una realización del método inventivo es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional del método inventivo es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales se pueden por ejemplo configurar para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los métodos descritos en el presente documento.
Una realización comprende además un ordenador que tiene instalado en la misma el programa informático para realizar uno de los métodos descritos en el presente documento.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable en el campo) se puede usar para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas programable en el campo puede cooperar con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se llevan a cabo preferentemente mediante cualquier aparato de hardware.
Las realizaciones anteriormente descritas son solo ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de los arreglos y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por lo tanto, se pretende que se limite solo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de la presente.
Referencias que se incorporan en su totalidad como referencia:
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki y T Pihlajamaki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, noviembre, 2009, Zao; Miyagi, Japón.
[2] M. V. Laitinen y V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction", 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Praga, 2011, pp. 61 -64.
[3] R. K. Furness, "Ambisonics — An overview", en AES 8th International Conference, abril, 1990, págs. 181— 189.
[4] C. Nachbar, F. Zotter, E. Deleflie y A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011
[5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (que corresponde a WO 2017/157803 A1).

Claims (20)

  1. REIVINDICACIONES
    i. Un aparato para generar una descripción de campo de sonido usando una señal de entrada que comprende una señal mono o una señal multicanal, comprendiendo el aparato:
    un analizador de señal de entrada (600) para analizar la señal de entrada para derivar datos de dirección y datos de difusión;
    un generador de componentes de bajo orden (810) para generar una descripción de sonido de bajo orden de la señal de entrada hasta un orden y modo predeterminados, en el que el generador de componentes de bajo orden se configura para derivar la descripción de campo sonido de bajo orden al copiar o tomar la señal de entrada o la realización de una combinación ponderada de los canales de la señal de entrada;
    un generador de componentes de orden medio (820) para generar una descripción de campo de sonido de orden medio por encima del orden predeterminado o en el orden predeterminado y por encima del modo predeterminado y por debajo o en un primer orden de truncamiento usando una síntesis de al menos una porción directa y de al menos una porción difusa usando los datos de dirección y los datos de difusión de modo que la descripción de campo de sonido de orden medio comprenda una contribución directa y una contribución difusa; y
    un generador de componentes de alto orden (830) para generar una descripción de campo de sonido de alto orden que tiene un componente por encima del primer orden de truncamiento usando una síntesis de al menos una porción directa, en el que la descripción de campo de sonido de alto orden comprende solamente una contribución directa.
  2. 2. Aparato según la reivindicación 1, en el que el analizador de señal de entrada (600) se configura para extraer los datos de difusión de metadatos asociados con la señal de entrada o para extraer los datos de difusión de la señal de entrada mediante un análisis de señal (610, 620) de la señal de entrada que tiene dos o más canales o componentes.
  3. 3. Aparato según la reivindicación 1 o 2,
    en el que el generador de componentes de bajo orden (810) se configura para generar K componentes de campo de sonido de bajo orden, siendo K 1 o mayor que 1 y dependiendo del orden predeterminado y el modo predeterminado,
    en el que el generador de componentes de orden medio (820) se configura para generar (L 1)2 - K componentes de campo de sonido de orden medio, siendo L mayor que K y dependiendo del orden de truncamiento y,
    en el que el generador de componentes de alto orden (830) se configura para generar (H 1)2 -(L 1)2 componentes de campo de sonido de alto orden, en el que H es un número entero mayor que L y en el que H representa un orden máximo de la descripción de campo de sonido generado.
  4. 4. Aparato según una de las reivindicaciones anteriores, que comprende además un combinador de campo de sonido (430) para combinar los componentes de campo de sonido de bajo orden, los componentes de campo de sonido de orden medio y los componentes de campo de sonido de alto orden para obtener un campo de sonido combinado que tiene (H 1)2 componentes de campo de sonido, en el que H es un orden máximo de la descripción de campo de sonido generado.
  5. 5. Aparato de acuerdo con una de las reivindicaciones anteriores, que comprende además una calculadora de ganancia direccional (410) para calcular las ganancias direccionales para los componentes de campo de sonido de orden medio y de alto orden a partir de los datos de dirección y/o los datos de difusión y para alimentar las ganancias direccionales para los componentes de campo de sonido de orden medio al generador de componentes de orden medio (820) y para alimentar las ganancias direccionales para los componentes de campo de sonido de alto orden al generador de componentes de alto orden (830).
  6. 6. Aparato según la reivindicación 5, en el que la calculadora de ganancia direccional se configura
    para recibir, para cada mosaico de tiempo-frecuencia de una pluralidad de mosaicos de tiempo-frecuencia, los datos direccionales y/o los datos de difusión, y
    para evaluar una función de base espacial para un cierto orden y modo usando los datos direccionales para obtener la ganancia direccional para el cierto orden y modo.
  7. 7. Aparato según una de las reivindicaciones anteriores, en el que el generador de componentes de orden medio (820) comprende:
    un generador de señales de referencia (821) para proporcionar una señal de referencia para un componente de campo de sonido de la descripción de campo de sonido de orden medio y para modificar (822) la señal de referencia usando los datos direccionales;
    un descorrelacionador (823, 824) para descorrelacionar la señal de referencia o una señal derivada de la señal de referencia para obtener una señal descorrelacionada; y
    un mezclador (824, 825) para mezclar la señal de referencia modificada y la señal descorrelacionada usando los datos de difusión.
  8. 8. Aparato según una de las reivindicaciones anteriores,
    en el que la señal de entrada comprende la señal mono, y en el que el generador de componentes de bajo orden (810) se configura para generar una señal Ambisonics de orden cero tomando o copiando la señal mono (813, 814), o
    en el que la señal de entrada comprende al menos dos canales, y en el que el generador de componentes de bajo orden (810) se configura para generar una señal Ambisonics de orden cero al sumar los dos canales y para generar una señal Ambisonics de primer orden con base en una diferencia de los dos canales (815), o
    en el que la señal de entrada comprende una señal Ambisonics de primer orden con tres o cuatro canales, y en el que el generador de componentes de bajo orden (810) se configura para generar una señal Ambisonics de primer orden al tomar o copiar los tres o cuatro canales de la señal de entrada (813, 814), o
    en el que la señal de entrada comprende una señal de formato A que tiene cuatro canales, y en el que el generador de componentes de bajo orden (810) se configura para calcular una señal Ambisonics de primer orden al realizar una combinación lineal ponderada de los cuatro canales (816).
  9. 9. Aparato según una de las reivindicaciones anteriores, en el que el generador de componentes de alto orden (830) se configura para sintetizar solamente una porción directa para un componente de la descripción de campo de sonido de alto orden usando los datos de dirección.
  10. 10. Aparato según la reivindicación 9, que comprende además una calculadora de ganancia direccional (410) para el componente de campo de sonido de la descripción de campo de sonido de alto orden configurado para evaluar una función de base espacial para un orden y un modo del componente de la descripción de campo de sonido de alto orden, y en el que el generador de componentes de alto orden (830) se configura para derivar el componente de campo de sonido de la señal de referencia y la ganancia direccional.
  11. 11. Aparato según la reivindicación 10, en el que el generador de componentes de alto orden (830) se configura para multiplicar (822) la señal de referencia por la ganancia direccional para el orden y modo del componente de campo de sonido y para multiplicar (822) por un factor derivado de los datos de difusión para obtener el componente de campo de sonido de la descripción de campo de sonido de alto orden.
  12. 12. Aparato según la reivindicación 7,
    en el que el descorrelacionador (823, 824) comprende un filtro de descorrelación (823) para recibir la señal de referencia y para emitir una señal de referencia filtrada, y
    en el que el descorrelacionador se configura para ponderar (824) la señal filtrada o una señal introducida en el filtro descorrelacionador (823) por un valor de ponderación derivado de los datos de difusión y por un valor de ponderación adicional derivado de un orden y modo del componente de campo de sonido bajo consideración para obtener la porción difusa, y
    en el que el mezclador se configura para sumar (825) la porción directa y la porción difusa del mismo orden y modo para obtener el componente de campo de sonido de orden medio.
  13. 13. Aparato según una de las reivindicaciones anteriores,
    en el que el generador de componentes de bajo orden (810) y/o el generador de componentes de orden medio(820) se configura para realizar una compensación de energía a uno o más componentes de campo de sonido de la descripción de campo de sonido de bajo orden o la al menos una porción difusa de la descripción de campo de sonido de orden medio o a un componente de campo de sonido de la descripción de campo de sonido de orden medio para compensar una pérdida de energía debido a que la descripción de campo de sonido de alto orden solo tiene el componente directo, o
    en el que el generador de componentes de sonido se configura para realizar una compensación de energía a uno o más componentes de campo de sonido de la descripción de campo de sonido de bajo orden o la por lo menos una parte difusa de la descripción de campo de sonido de orden medio o a un componente de campo de sonido de la descripción de campo de sonido de orden medio dependiendo la compensación de energía de los datos de difusión y al menos uno de un número de componentes de campo de sonido generados por el generador de componentes de alto orden (830), un número de componentes difusos generados por el generador de componentes de bajo orden (810) y/o el generador de componentes de orden medio (820), un orden máximo de componentes de campo de sonido generados por el generador de componentes de bajo orden (810) y/o el generador de componentes de orden medio (820) y un orden máximo de componentes de campo de sonido generados por el generador de componentes de alto orden (830).
  14. 14. Aparato según una de las reivindicaciones anteriores, en el que el generador de componentes de bajo orden (810) se configura para realizar una compensación de energía a un componente direccional incluido en la señal de entrada o derivado de la señal de entrada al copiar, tomar o realizar una combinación ponderada.
  15. 15. Aparato según la reivindicación 14, en el que el generador de componentes de bajo orden comprende:
    un estimador (620) para estimar una primera medición relacionada con energía o amplitud para un componente omnidireccional derivado de la señal de entrada y para estimar una segunda medición relacionada con energía o amplitud para un componente direccional derivado de la señal de entrada; y en el que el generador de componentes de bajo orden (810) se configura para realizar una compensación de energía del componente direccional usando la primera medición relacionada con energía o amplitud, la segunda medición relacionada con energía o amplitud, los datos de dirección y los datos de difusión.
  16. 16. Aparato según una de las reivindicaciones 14 y 15,
    en el que el generador de componentes de bajo orden (810) comprende un compensador de energía (910, 900) para realizar la compensación de energía, comprendiendo el compensador de energía una calculadora de ganancia de compensación (910) para calcular una ganancia de compensación usando los datos de difusión, un orden máximo de los componentes de campo de sonido del primer grupo y un orden máximo de los componentes de campo de sonido del segundo grupo, en el que el orden máximo de los componentes de campo de sonido del segundo grupo depende del número de componentes de campo de sonido en el segundo grupo.
  17. 17. Aparato según la reivindicación 16, en el que el generador de componentes de alto orden (830) se configura para multiplicar (822) la señal de referencia por la ganancia direccional para el orden y modo del componente de campo de sonido y para multiplicar (822) por un factor derivado de los datos de difusión para obtener el componente de campo de sonido de la descripción de campo de sonido de alto orden.
  18. 18. Aparato según una de las reivindicaciones 16 y 17,
    en el que el compensador de energía (910, 920, 930, 940) comprende un aplicador de ganancia de compensación (900) para aplicar la ganancia de compensación a al menos un componente de campo de sonido.
  19. 19. Aparato según una de las reivindicaciones anteriores,
    en el que un primer grupo de componentes de campo de sonido y un segundo grupo de componentes de campo de sonido son ortogonales entre sí, o en el que los componentes de campo de sonido son al menos uno de los coeficientes de funciones de base ortogonal, coeficientes de funciones de base espacial, coeficientes de armónicos esféricos o circulares y coeficientes Ambisonics.
  20. 20. Aparato según una de las reivindicaciones anteriores, que comprende además:
    un banco de filtros de análisis (400) para generar uno o más componentes de campo de sonido del primer grupo y el segundo grupo para una pluralidad de diferentes mosaicos de tiempo-frecuencia,
    en el que el analizador de señal de entrada (600) se configura para obtener un elemento de datos de dirección y un elemento de datos de difusión para cada mosaico de tiempo-frecuencia, y
    en el que el generador de componentes de bajo orden (810), el generador de componentes de orden medio (820) o el generador de componentes de alto orden (830) el generador de componentes de sonido (650) se configuran para funcionar por separado para cada mosaico de tiempo-frecuencia.
    Método para generar una descripción de campo de sonido usando una señal de entrada que comprende una señal mono o una señal multicanal, que comprende:
    analizar la señal de entrada para derivar datos de dirección y datos de difusión;
    generar una descripción de campo de sonido de bajo orden de la señal de entrada hasta un orden y modo predeterminados, en el que el generador de bajo orden se configura para derivar la descripción de campo de sonido de bajo orden al copiar la señal de entrada o realizar una combinación ponderada de los canales de la señal de entrada;
    generar una descripción de campo sonido de orden medio por encima del orden predeterminado o en el orden predeterminado y por encima del modo predeterminado y por debajo de un alto orden usando una síntesis de al menos una porción directa y de al menos una porción difusa usando los datos de dirección y los datos de difusión de modo que la descripción de campo de sonido de orden medio comprenda una contribución directa y una contribución difusa; y
    generar una descripción de campo de sonido de alto orden que tiene un componente en o por encima del alto orden usando una síntesis de al menos una porción directa sin ninguna síntesis de componente difuso de modo que la descripción de campo de sonido de alto orden comprende solamente una contribución directa. Programa informático que comprende instrucciones que, cuando el programa se ejecuta por un ordenador o un procesador, hacen que el ordenador o el procesador lleve a cabo el método de la reivindicación 21.
ES19813056T 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden Active ES2940286T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18211064 2018-12-07
PCT/EP2019/084056 WO2020115311A1 (en) 2018-12-07 2019-12-06 Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators

Publications (1)

Publication Number Publication Date
ES2940286T3 true ES2940286T3 (es) 2023-05-05

Family

ID=64870294

Family Applications (3)

Application Number Title Priority Date Filing Date
ES19813055T Active ES2969138T3 (es) 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación directa de componentes
ES19813056T Active ES2940286T3 (es) 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden
ES19813054T Active ES2941268T3 (es) 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES19813055T Active ES2969138T3 (es) 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación directa de componentes

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES19813054T Active ES2941268T3 (es) 2018-12-07 2019-12-06 Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa

Country Status (17)

Country Link
US (6) US11937075B2 (es)
EP (4) EP3891736B1 (es)
JP (3) JP7309876B2 (es)
KR (5) KR102599744B1 (es)
CN (6) CN117975975A (es)
AU (3) AU2019392876B2 (es)
BR (3) BR112021010956A2 (es)
CA (3) CA3122164C (es)
ES (3) ES2969138T3 (es)
FI (2) FI3891736T3 (es)
MX (3) MX2021006563A (es)
PL (3) PL3891734T3 (es)
PT (2) PT3891736T (es)
SG (3) SG11202105719RA (es)
TW (3) TWI745795B (es)
WO (3) WO2020115309A1 (es)
ZA (3) ZA202103739B (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230084244A (ko) 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 대역폭 확장을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
CN116438598A (zh) 2020-10-09 2023-07-14 弗劳恩霍夫应用研究促进协会 使用参数平滑来处理编码音频场景的装置、方法或计算机程序
KR20230084251A (ko) 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 변환을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031474B1 (en) 1999-10-04 2006-04-18 Srs Labs, Inc. Acoustic correction apparatus
US7515719B2 (en) 2001-03-27 2009-04-07 Cambridge Mechatronics Limited Method and apparatus to create a sound field
ES2271654T3 (es) * 2002-08-07 2007-04-16 Dolby Laboratories Licensing Corporation Conversion espacial de canales de audio.
TWI313857B (en) 2005-04-12 2009-08-21 Coding Tech Ab Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
DE102008004674A1 (de) * 2007-12-17 2009-06-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalaufnahme mit variabler Richtcharakteristik
US8811621B2 (en) 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
US8452019B1 (en) * 2008-07-08 2013-05-28 National Acquisition Sub, Inc. Testing and calibration for audio processing system with noise cancelation based on selected nulls
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
SG177277A1 (en) 2009-06-24 2012-02-28 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
EP2510709A4 (en) * 2009-12-10 2015-04-08 Reality Ip Pty Ltd IMPROVED MATRIX DECODER FOR SURROUND SOUND
EP2647005B1 (en) 2010-12-03 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
WO2013141768A1 (en) * 2012-03-22 2013-09-26 Dirac Research Ab Audio precompensation controller design using a variable set of support loudspeakers
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
WO2014013070A1 (en) 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) * 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9691406B2 (en) 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
EP2942982A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
EP3712553B1 (en) * 2015-09-14 2024-03-20 Thorlabs, Inc. Apparatus and methods for one or more wavelength swept lasers and the detection of signals thereof
WO2017085140A1 (en) * 2015-11-17 2017-05-26 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal
KR102063307B1 (ko) * 2016-03-15 2020-01-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
EP3472832A4 (en) * 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
EP3346726A1 (en) 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Arrangements and methods for active noise cancelling
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US20180333103A1 (en) * 2017-05-18 2018-11-22 One Health Group, LLC Algorithmic Approach for Estimation of Respiration and Heart Rates
SG11202000287RA (en) * 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques
CA3134343A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
TWM564300U (zh) * 2018-05-04 2018-07-21 十銓科技股份有限公司 耳道式耳機
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
EP3675522A1 (en) * 2018-12-28 2020-07-01 Sonion Nederland B.V. Miniature speaker with essentially no acoustical leakage

Also Published As

Publication number Publication date
US11838743B2 (en) 2023-12-05
TWI745795B (zh) 2021-11-11
KR20210102300A (ko) 2021-08-19
CN113439303A (zh) 2021-09-24
KR20230112750A (ko) 2023-07-27
AU2019394097A1 (en) 2021-07-22
US20210289314A1 (en) 2021-09-16
CA3122170C (en) 2024-01-02
CA3122168C (en) 2023-10-03
US20210289313A1 (en) 2021-09-16
CA3122168A1 (en) 2020-06-11
CN113424257B (zh) 2024-01-19
PT3891736T (pt) 2023-05-03
CA3122164C (en) 2024-01-02
EP3891735B1 (en) 2023-11-29
SG11202105719RA (en) 2021-06-29
US11937075B2 (en) 2024-03-19
JP2022518664A (ja) 2022-03-16
MX2021006565A (es) 2021-08-11
KR102590816B1 (ko) 2023-10-19
EP3891735A1 (en) 2021-10-13
EP3891736A1 (en) 2021-10-13
AU2019394097A8 (en) 2021-08-05
AU2019392876B2 (en) 2023-04-27
JP7311601B2 (ja) 2023-07-19
US20230396949A1 (en) 2023-12-07
US11856389B2 (en) 2023-12-26
WO2020115311A1 (en) 2020-06-11
KR20230113413A (ko) 2023-07-28
BR112021010964A2 (pt) 2021-08-31
JP2022518663A (ja) 2022-03-16
US20240040330A1 (en) 2024-02-01
ZA202103741B (en) 2022-06-29
EP3891736B1 (en) 2023-01-25
ES2941268T3 (es) 2023-05-19
PL3891736T3 (pl) 2023-06-26
CN113424257A (zh) 2021-09-21
JP2022517506A (ja) 2022-03-09
PT3891734T (pt) 2023-05-03
CN117975975A (zh) 2024-05-03
EP3891734A1 (en) 2021-10-13
EP4191580A1 (en) 2023-06-07
CN113454715B (zh) 2024-03-08
AU2019392988A1 (en) 2021-07-22
CA3122164A1 (en) 2020-06-11
KR20210102924A (ko) 2021-08-20
EP3891734B1 (en) 2023-01-25
KR20210097775A (ko) 2021-08-09
CN117953905A (zh) 2024-04-30
KR102599744B1 (ko) 2023-11-08
TWI747095B (zh) 2021-11-21
BR112021010956A2 (pt) 2021-08-31
ZA202103738B (en) 2022-06-29
FI3891734T3 (fi) 2023-04-14
JP7309876B2 (ja) 2023-07-18
TW202107449A (zh) 2021-02-16
PL3891734T3 (pl) 2023-06-05
AU2019394097B2 (en) 2022-11-17
CN117809663A (zh) 2024-04-02
CN113439303B (zh) 2024-03-08
MX2021006563A (es) 2021-08-11
TW202038214A (zh) 2020-10-16
WO2020115310A1 (en) 2020-06-11
SG11202105712QA (en) 2021-06-29
US20210289312A1 (en) 2021-09-16
PL3891735T3 (pl) 2024-04-22
MX2021006572A (es) 2021-08-11
CA3122170A1 (en) 2020-06-11
AU2019392876A1 (en) 2021-07-22
CN113454715A (zh) 2021-09-28
TWI751457B (zh) 2022-01-01
EP3891735C0 (en) 2023-11-29
WO2020115309A1 (en) 2020-06-11
SG11202105720RA (en) 2021-06-29
FI3891736T3 (fi) 2023-04-14
ZA202103739B (en) 2022-01-26
AU2019392988B2 (en) 2022-11-17
ES2969138T3 (es) 2024-05-16
US20230379652A1 (en) 2023-11-23
BR112021010972A2 (pt) 2021-09-08
TW202029186A (zh) 2020-08-01
JP7311602B2 (ja) 2023-07-19

Similar Documents

Publication Publication Date Title
ES2940286T3 (es) Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza generadores de componentes de bajo, medio y alto orden
RU2772423C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка
RU2779415C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации
RU2782511C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент