ES2532152T3 - Renderización binaural de una señal de audio multicanal - Google Patents

Renderización binaural de una señal de audio multicanal Download PDF

Info

Publication number
ES2532152T3
ES2532152T3 ES09778738.6T ES09778738T ES2532152T3 ES 2532152 T3 ES2532152 T3 ES 2532152T3 ES 09778738 T ES09778738 T ES 09778738T ES 2532152 T3 ES2532152 T3 ES 2532152T3
Authority
ES
Spain
Prior art keywords
stereo
signal
multichannel
conversion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09778738.6T
Other languages
English (en)
Inventor
Jeroen Koppens
Harald Mundt
Leonid Terentiev
Cornelia Falch
Johannes Hilpert
Oliver Hellmuth
Lars Villemoes
Jan Plogsties
Jeroen Breebaart
Jonas Engdegard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Koninklijke Philips NV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Koninklijke Philips NV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Koninklijke Philips NV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2532152T3 publication Critical patent/ES2532152T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24), la señal de audio multicanal (21) comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (141-14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) que indica, para cada señal de audio, hasta qué punto la respectiva señal de audio se ha mezclado en un primer canal (L0) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (IOC) que describe las semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el aparato estando configurado para: computar (47), basado en una primera prescripción de renderización (Gl, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) de salida binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; generar (50), a partir de la señal (18) de conversión estereofónica de multicanal a estéreo, una señal no correlacionada ( n k d X , ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); computar (52), según una segunda prescripción de renderización (P2 l, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) de salida binaural correctiva de la señal (62) no correlacionada; y mezclar (53) la señal (54) de salida binaural preliminar con la señal (64) de salida binaural correctiva de obtener la señal de salida binaural (24).

Description

10
15
20
25
30
35
40
45
50
55
60
65 E09778738
05-03-2015
DESCRIPCIÓN
Renderización binaural de una señal de audio multicanal
[0001] La presente solicitud se relaciona con la renderización binaural de una señal de audio multicanal.
[0002] Muchos algoritmos de codificación de audio han sido propuestos a fin de codificar con eficacia o comprimir datos de audio de un canal, es decir, señales monoarurales. Usando la psicoacústica, las muestras de audio son apropiadamente modificadas a escala, cuantificadas o conjunto ni siquiera al cero a fin de retirar la irrelevancia de, por ejemplo, el PCM señal de audio codificada. La eliminación de redundancia también es llevada a cabo.
[0003] Como una etapa adicional, las semejanzas entre el canal derecho e izquierdo de señales de audio estéreo han sido explotadas a fin de codificar/comprimir con eficacia señales de audio estéreo.
[0004] Sin embargo, las aplicaciones próximas plantean demandas adicionales en algoritmos de codificación de audio. Por ejemplo, en teleconferencia, vídeojuegos, desempeño de música y lo similar, varias señales de audio que son parcialmente o incluso completamente no correlacionadas tienen que transmitirse en paralelo. A fin de mantener la velocidad binaria necesaria para codificar estas señales de audio bastante bajo a fin de ser compatible a aplicaciones de transmisión de tasa con el bajo bit, recientemente, códecs de audio ha sido propuesta que conversión de multicanal a estéreo múltiples señales de audio de entrada en una señal de conversión de multicanal a estéreo, como una señal de conversión monoaural de multicanal a estéreo estéreo o ni siquiera. Por ejemplo, las conversiones de multicanal a estéreo de norma de Sonido envolvente de MPEG los canales de entrada en la señal de conversión de multicanal a estéreo en una manera prescrita por norma. La conversión de multicanal a estéreo se lleva a cabo por el uso de llamados bloques de TTT-1 y OTT-1 para la conversión de multicanal a estéreo dos señales en una y tres señales en dos, respectivamente. A fin de a la conversión de multicanal a estéreo más de tres señales, una estructura jerárquica de estos bloques se usa. Cada bloque de OTT-1 salidas, además de la señal de conversión monoaural de multicanal a estéreo, diferencias de nivel de canal entre los dos canales de entrada, así como coherencia entre canales / parámetros de correlación cruzada que representan la coherencia o la correlación cruzada entre los dos canales de entrada. Los parámetros son enviados junto con la señal de conversión de multicanal a estéreo del codificador de Sonido envolvente de MPEG dentro del tren de datos de Sonido envolvente de MPEG. De forma similar, cada bloque de TTT-1 transmite coeficientes de predicción de canal que habilitan recuperar los tres canales de entrada de la señal de conversión estereofónica de multicanal a estéreo resultante. Los coeficientes de predicción de canal también son transmitidos como la información conexa dentro del tren de datos de Sonido envolvente de MPEG. Las conversiones de estéreo a multicanal de Decodificador de sonido envolvente de MPEG la señal de conversión de multicanal a estéreo por el uso de la información conexa transmitida y recuperan, la entrada de canales original en el codificador de Sonido envolvente de MPEG.
[0005] Sin embargo, el Sonido envolvente de MPEG, lamentablemente, no realiza todos los requerimientos planteados por muchas aplicaciones. Por ejemplo, el Decodificador de sonido envolvente de MPEG es dedicado para convertir de estéreo a multicanal la señal de conversión de multicanal a estéreo del codificador de Sonido envolvente de MPEG el que los canales de entrada del codificador de Sonido envolvente de MPEG son recuperados como éstos son. En otras palabras, el tren de datos de Sonido envolvente de MPEG es dedicado para ser puesto por el uso de la configuración de altavoz que se ha usado para la codificación, o por configuraciones comunes como el estéreo.
[0006] Sin embargo, según algunas aplicaciones, sería favorable si la configuración de altavoz pudiera cambiarse en el lado del decodificador libremente.
[0007] A fin de encargarse a las últimas necesidades, la codificación espacial del objeto de audio (SAOC) la norma es diseñada actualmente. Cada canal se somete a tratamiento como un objeto individual, y todos los objetos se convierten de multicanal a estéreo en una señal de conversión de multicanal a estéreo. Es decir los objetos son manejados como señales de audio que son independientes de entre sí sin adherirse a cualquier configuración de altavoz específica, pero con la capacidad de colocar los altavoces (virtuales) en el lado del decodificador arbitrariamente. Los objetos individuales pueden comprender fuentes de sonido individuales como p.ej documentos
o pistas vocales. Diferenciándose del Decodificador de sonido envolvente de MPEG, el decodificador SAOC está libre para convertir de estéreo a multicanal individualmente la señal de conversión de multicanal a estéreo para volver a jugar los objetos individuales en cualquier configuración de altavoz. A fin de habilitar el decodificador SAOC para recuperar los objetos individuales que tienen sido codificado en el tren de datos SAOC, objetan diferencias de nivel y, para objetos que forman conjuntamente un estéreo (o multicanal) señal, los parámetros de correlación cruzados entre objetos se transmiten como la información conexa dentro del tren de bits SAOC. Además de esto, el decodificador/transcodificador SAOC se proporciona con la información que revela como los objetos individuales se han convertido de multicanal a estéreo en la señal de conversión de multicanal a estéreo. Así, en el lado del decodificador, es posible recuperar los canales SAOC individuales y renderizar estas señales en cualquier configuración de altavoz utilizando la información de renderización controlada por el usuario.
10
15
20
25
30
35
40
45
50
55
60
65 E09778738
05-03-2015
[0008] Sin embargo, aunque los códecs ya mencionados, es decir Sonido envolvente de MPEG y SAOC, sean capaces de transmitir y renderizar el contenido de audio multicanal en configuraciones de altavoz que tienen a más de dos altavoces, el interés creciente en audífonos ya que el sistema de reproducción de audio requiere esto estos códecs también son capaces de renderizar el contenido de audio en audífonos. En contraste con el pregrabado de altavoz, el contenido de audio estéreo reproducido sobre audífonos es percibido dentro el cabezal. La ausencia del efecto de la vía acústica de fuentes las a ciertas posiciones físicas a los tímpanos hacen que la imagen espacial parezca no natural ya que las señales de aviso que determinan el acimut percibido, elevación y distancia de una fuente de sonido es esencialmente ausente o muy inexacta. Así, para resolver la etapa de sonido no natural causada por señales de aviso de localización de fuente de sonido inexactas o ausentes en audífonos, diversos métodos han sido propuestos para simular una configuración de altavoz virtual. La idea es superimponer señales de aviso de localización de fuente de sonido en cada señal de altavoz. Esto se logra filtrando señales de audio con llamadas funciones de transferencia relacionadas por el cabezal (HRTFs) o respuestas a impulsos de cuarto binaurales (BRIRs) si el cuarto propiedades acústicas se incluye en estos datos de cuantificación. Sin embargo, filtrar cada señal de altavoz con las funciones sólo mencionadas requeriría una cantidad considerablemente más elevada de la energía de cálculo en el lado de decodificador/reproducción. En términos particulares, la renderización la señal de audio multicanal en las ubicaciones de altavoz "virtuales" tendría que llevarse a cabo primero donde, luego, cada señal de altavoz así obtenida, es filtrada con la respectiva función de transferencia o respuesta a impulsos para obtener el canal derecho e izquierdo de la señal de salida binaural. Incluso peor: la señal de salida binaural obtenida tendría una calidad de audio mala debido a que a fin de lograr las señales de altavoz virtuales, un relativamente la gran cantidad de señales de decorrelación sintéticas tendría que mezclarse en las señales convertidas de estéreo a multicanal a fin de compensar la correlación entre señales de entrada de audio al principio no correlacionadas, la correlación que resulta a partir de la conversión de multicanal a estéreo la pluralidad de señales de entrada de audio en la señal de conversión de multicanal a estéreo.
[0009] En la versión actual del códec SAOC, los parámetros SAOC dentro de la información conexa permiten la renderización espacial interactiva por el usuario de los objetos de audio usando cualquier configuración de pregrabado con, en principio, incluyendo audífonos. La renderización binaural a audífonos permite el control espacial de posiciones de objeto virtuales en el espacio en 3D usando la función de transferencia relacionada por el cabezal (HRTF) parámetros. Por ejemplo, la renderización binaural en SAOC podría implementarse restringiendo este caso a la conversión monoaural de multicanal a estéreo caso de SAOC donde las señales de entrada se mezclan en el canal mono igualmente. Lamentablemente, la conversión monoaural de multicanal a estéreo requiere todas las señales de audio para mezclarse en una señal de conversión monoaural de multicanal a estéreo común de modo que las propiedades de correlación originales entre las señales de audio originales sean máximamente perdidas y por lo tanto, la calidad de renderización de la señal de salida de renderización binaural es no óptima.
[00010] En Engdegard et al .: Spatial Audio Object Coding (SAOC) -The Upcoming MPEG Standard on Parametric Object Based Coding, 124ª convención AES, artículo 7377, 17 de mayo de 2008, páginas 1-15, se describe SAOC como una extensión de la norma de sonido envolvente de MPEG. En particular, se describe el modelo de la arquitectura de referencia elegido, la asociación entre los diferentes modos y aplicaciones operativas, y el estado del proceso de normalización de 2008.
[00011] El documento WO 2008/069593 A1 describe un método para procesar una señal de audio que comprende recibir una señal de mezcla descendente, una primera información multicanal y una información de objeto, el procesamiento de la señal de mezcla descendente utilizando la información de objeto y una información de la mezcla, y la transmisión de una de la primera información multicanal y una segunda información de multicanal de acuerdo con la información de la mezcla, en el que la segunda información de canal se genera utilizando la información del objeto y la información de mezcla.
[00012] El documento WO 2007/078254 A2 describe una decodificación personalizada de sonido envolvente multicanal. Un flujo de bits de audio envolvente multicanal paramétrico se recibe en un descodificador multicanal. Los parámetros espaciales recibidos se transforman en un nuevo conjunto de parámetros espaciales que se utilizan con el fin de obtener una decodificación del sonido envolvente multicanal que no es un simple equivalente de la señal envolvente multicanal de entrada original, pero por ejemplo, pueden ser personalizados al hacer la transformación basada en la representación de los filtros relacionados cabeza del usuario. Tales parámetros espaciales personalizados se pueden obtener mediante la combinación de los parámetros espaciales recibidos y la representación del filtro relacionado con el cabezal de usuario con un conjunto de parámetros de representación adicionales que, por ejemplo, son determinados de forma interactiva por el usuario y por lo tanto, son dependientes del tiempo.
[00013] El documento WO 2007/083952 A1 describe un método y un aparato para procesar una señal de medios de comunicación, por el cual la señal de los medios de comunicación se puede convertir en una señal de sonido envolvente mediante el uso de la información espacial de la señal de los medios de comunicación. La información de asignación fuente correspondiente a cada fuente de múltiples fuentes se genera mediante el uso de la información espacial que indica características entre las múltiples fuentes. Al menos una información de renderizado se genera mediante el uso de la información de asignación de fuente y la información de filtro que tiene un efecto de sonido
10
15
20
25
30
35
40
45
50
55
60
65 E09778738
05-03-2015
envolvente. El suavizado se realiza mediante el uso de información de renderizado de vecinos de la al menos una información de renderizado.
[00014] Así, es el objeto de la presente invención para proporcionar esquema de la renderización binaural de una señal de audio multicanal el que el resultado de renderización binaural es mejorado con, simultáneamente, evitando una restricción en la libertad de componer la señal de conversión de multicanal a estéreo de las señales de audio originales.
[00015] Este objeto se logra por un aparato según la reivindicación 1 y un método según la reivindicación 10.
[00016] Una de las ideas básicas que son la base de la presente invención es que la renderización binaural de una señal de audio multicanal inicial de una señal de conversión estereofónica de multicanal a estéreo es ventajosa sobre la renderización binaural inicial de la señal de audio multicanal de una señal de conversión monoaural de multicanal a estéreo de lo mismo en aquella, debido a que pocos objetos se encuentran en los canales individuales de la señal de conversión estereofónica de multicanal a estéreo, la cantidad de la decorrelación entre las señales de audio individuales es mejor conservada, y en aquella la posibilidad de elegir entre los dos canales de la señal de conversión estereofónica de multicanal a estéreo en el lado codificador habilita esto las propiedades de correlación entre señales de audio en diferentes canales de conversión de multicanal a estéreo son parcialmente conservadas. En otras palabras, debido a la conversión de multicanal a estéreo codificador, las coherencias entre objetos son degradadas que tiene para ser representado en el lado decodificador donde la coherencia entre canales de la señal de salida binaural es una medida importante para la percepción de la anchura de fuente de sonido virtual, pero usando la conversión estereofónica de multicanal a estéreo en vez de la conversión monoaural de multicanal a estéreo reduce la cantidad de degradarse de modo que la restauración/generación de la cantidad apropiada de la coherencia entre canales por la renderización binaural la señal de conversión estereofónica de multicanal a estéreo logre la mejor calidad.
[00017] Una idea principal adicional de la presente solicitud consiste en que ICC ya mencionado (ICC = coherencia entre canales) control puede lograrse por medio de una señal no correlacionada que forma un equivalente perceptual con una conversión monoaural de multicanal a estéreo de los canales de conversión de multicanal a estéreo de la anchura de señal de conversión estereofónica de multicanal a estéreo, sin embargo, no correlacionado a la conversión monoaural de multicanal a estéreo. Así, mientras el uso de una señal de conversión estereofónica de multicanal a estéreo en vez de una señal de conversión monoaural de multicanal a estéreo conserva algunas propiedades de correlación de la pluralidad de señales de audio, que se habrían perdido al usar una señal de conversión monoaural de multicanal a estéreo, la renderización binaural puede basarse en una señal no correlacionada que es representativa para ambos, el primero y segundo canal de conversión de multicanal a estéreo, reduciendo así la cantidad de decorrelaciones o procesamiento de señal sintético comparado con decorrelacionar por separado cada canal de conversión estereofónica de multicanal a estéreo.
[00018] Respecto a las figuras, las modalidades preferidas de la presente solicitud se describen más detalladamente. Entre estas figuras, Figura 1muestra un diagrama de bloques de una configuración de codificador/decodificador SAOC donde las modalidades de la presente invención pueden ponerse en práctica; Figura 2muestra un diagrama esquemático e ilustrativo de una representación espectral de una señal monoarural; Figura 3muestra un diagrama de bloques de un decodificador de audio capaz de la renderización binaural según una modalidad de la presente invención; Figura 4muestra un diagrama de bloques de la conversión de multicanal a estéreo el bloque pre de procesamiento de la Figura 3 según una modalidad de la presente invención; Figura 5muestra una flujograma de etapas llevadas a cabo por la unidad de procesamiento de datos de parámetro SAOC 42 de la Figura 3 según una primera alternativa; y Figura 6 muestra un gráfico que ilustra los resultados de pruebas de capacidad auditiva.
[00019] Antes de que las modalidades de la presente invención se describan más detalladamente después, el códec SAOC y los parámetros SAOC transmitidos en un tren binario SAOC se presentan a fin de aliviar la comprensión de las modalidades específicas detalladas con mayor detalle después.
[00020] La Figura 1 muestra una configuración general de un codificador SAOC 10 y un decodificador SAOC 12. El codificador SAOC 10 recibe como una entrada N objetos, es decir, señales de audio 141 a 14N. En términos particulares, el codificador 10 comprende un convertidor de multicanal a estéreo 16 que recibe las señales de audio 141 a 14N y conversiones de multicanal a estéreo mismo a una señal de conversión de multicanal a estéreo 18. En la Figura 1, la señal de conversión de multicanal a estéreo es ejemplarmente mostrada como una señal de conversión estereofónica de multicanal a estéreo. Sin embargo, el codificador 10 y decodificador 12 puede ser capaz de funcionar en un modo mono también donde el caso la señal de conversión de multicanal a estéreo sería una señal de conversión monoaural de multicanal a estéreo. La siguiente descripción, sin embargo, se concentra en el caso de conversión estereofónica de multicanal a estéreo. Los canales de la señal 18 de conversión estereofónica de multicanal a estéreo son LO denotado y RO.
15
25
35
45
55 E09778738
05-03-2015
[00021] A fin de habilitar el decodificador SAOC 12 para recuperar el paciente se opone 141 a 14N, el convertidor de multicanal a estéreo 16 proporciona el decodificador SAOC 12 por la información conexa que incluye SAOCparámetros que incluyen diferencias de nivel de objeto parámetros de correlación cruzados (ANTERIORES), entre objetos (IOC), valores de ganancias de conversión de multicanal a estéreo (DMG) y diferencias de nivel de canal de conversión de multicanal a estéreo (DCLD). La información conexa 20 incluyendo los SAOC-parámetros, junto con la señal de conversión de multicanal a estéreo 18, forma la transmisión de datos de salida SAOC 21 recibido por el decodificador SAOC 12.
[00022] El decodificador SAOC 12 comprende una conversión de estéreo a multicanal 22 que recibe la señal de conversión de multicanal a estéreo 18 así como la información conexa 20 a fin de recuperar y renderizar las señales de audio 141 y 14N en cualquier conjunto seleccionado por el usuario de canales 241 a 24M’, con la renderización como prescrito por la información de renderización 26 entrada en el decodificador SAOC 12 así como parámetros HRTF 27 el significado de que se describe más detalladamente después. La siguiente descripción se concentra en la renderización binaural, donde M’ =2 y, la señal de salida es sobre todo dedicada para la reproducción de audífonos, aunque la decodificación 12 pueda ser capaz de renderizar en otra configuración de altavoz (no binaural) también, según órdenes dentro de la introducción de datos por el usuario 26.
[00023] Las señales de audio 141 a 14N pueden ser introducidas en el convertidor de multicanal a estéreo 16 en cualquier dominio de codificación, tal como, por ejemplo, a tiempo o dominio espectral. Por si, las señales de audio 141 a 14N se alimenten en el convertidor de multicanal a estéreo 16 en el dominio temporal, como el PCM codificado, convertidor de multicanal a estéreo 16 usos un banco de filtros, como un banco de QMF híbrido, p.ej, un banco del complejo los filtros exponencialmente modulados con una extensión de filtro de Nyquist para las bandas de frecuencia más bajas que aumentan la resolución de la frecuencia en esa parte, a fin de transferir las señales en el dominio espectral donde las señales de audio son representadas en varias subbandas asociadas con diferentes porciones espectrales, a una resolución de banco de filtros específica. Si las señales de audio 141 a 14N están ya en la representación prevista por el convertidor de multicanal a estéreo 16, mismo no tiene que llevar a cabo la decomposición espectral.
[00024] La Figura 2 muestra una señal de audio en el dominio espectral sólo mencionado. Como se puede observar, la señal de audio es representada como una pluralidad de señales de subbanda. Cada señal de subbanda 301 a 30P comprende una secuencia de valores de la subbanda indicados por los pequeños bloques 32. Como se puede observar, los valores de la subbanda 32 de las señales de subbanda 301 a 30P son sincronizadas entre sí a tiempo de modo que para cada uno de intervalos temporales de banco de filtros consecutivos 34, cada subbanda 301 a 30P comprenda exacto un valor de la subbanda 32. Como se ilustra por el eje de frecuencia 35, las señales de subbanda 301 a 30P se asocian con diferentes regiones de frecuencia, y como se ilustra eje 37, los intervalos temporales de banco de filtros 34 son consecutivamente configurados a tiempo.
[00025] Como detallado antes, el convertidor de multicanal a estéreo 16 calcula SAOC-parámetros de las señales de audio de entrada 141 a 14N. El convertidor de multicanal a estéreo 16 lleva a cabo este cálculo en una resolución de tiempo/frecuencia que puede ser disminuida con relación a la resolución de tiempo/frecuencia original como se determina mediante los intervalos temporales de banco de filtros 34 y descomposición de subbanda, por una cierta cantidad, donde esta cierta cantidad puede ser señalada al lado decodificador dentro de la información conexa 20 por respectivos elementos sintácticos bsFrameLength y bsFreqRes. Por ejemplo, los grupos de intervalos temporales de banco de filtros consecutivos 34 pueden formar un cuadro 36, respectivamente. En otras palabras, la señal de audio puede estar dividida en cuadros que se superponen a tiempo o que es inmediatamente adyacente a tiempo, por ejemplo. En este caso, el bsFrameLength puede definir la cantidad de intervalos temporales de parámetro 38 por cuadro, es decir. la unidad de tiempo en donde los parámetros SAOC tal como ANTERIOR e IOC, se calculan en un cuadro SAOC 36 y bsFreqRes puede definir la cantidad de bandas de frecuencia de procesamiento para las cuales los parámetros SAOC se calculan, es decir la cantidad de bandas hacia donde el dominio de frecuencia es subdividido y para que los parámetros SAOC se determinan y transmitido. Por esta medida, cada cuadro está dividido en recuadros de tiempo/frecuencia ejemplificados en la Figura 2 por líneas entrecortadas 39.
[00026] El convertidor de multicanal a estéreo 16 calcula parámetros SAOC según las siguientes fórmulas. En términos particulares, el convertidor de multicanal a estéreo 16 calcula diferencias de nivel de objeto para cada objeto i como:
, nk ,
nk *
∑∑ xi xi
nk∈m
OLD i =
 , nk , ⎞
nk *
max xx
j ⎜∑∑ jj ⎟ nk∈m 
donde las sumas y los índices n y k, respectivamente, pasan por todos los intervalos temporales de banco de filtros 34, y todas las subbandas de banco de filtros 30 que pertenecen a un cierto recuadro de tiempo/frecuencia 39. Así, las energías de todos los valores de la subbanda xi de una señal de audio u objeto yo soy resumido y normalizado al valor de energía más elevado de aquel recuadro entre todos los objetos o señales de audio.
E09778738
05-03-2015
10
15
20
25
30
35
40
45
[00027] Adicionalmente el convertidor de multicanal a estéreo SAOC 16 es capaz de computar una medida de semejanzas de los recuadros de tiempo/frecuencia correspondientes de pares de la diferente entrada se opone 141 a 14N. Aunque el convertidor de multicanal a estéreo SAOC 16 pueda computar la medida de semejanzas entre todos los pares de la entrada se opone 141 a 14N, el convertidor de multicanal a estéreo 16 también puede suprimir la señalización de las medidas de semejanzas o restringir el cálculo de las medidas de semejanzas a objetos de audio 141 a 14N que forman izquierda o canales derechos de un canal estéreo común. En cualquier caso, la medida de semejanzas se llama el parámetro de correlación cruzado entre objetos IOCi, j. El cálculo es como sigue:
 , nk , ⎫
nk *
 ∑∑ xi xj 
imagen1nk∈m
IOC = IOC = Re ⎨⎬
ij , ji , , ,* nk , nk *nk nk ,
 ∑∑ xi xi ∑∑ xj xj 
 nk∈m nk∈m 
con nuevamente los índices n y k que pasan por todos los valores de la subbanda que pertenecen a un cierto recuadro de tiempo/frecuencia 39, y yo y j denotación de un cierto par de objetos de audio 141 a 14N.
[00028] El convertidor de multicanal a estéreo 16 conversiones de multicanal a estéreo los objetos 141 a 14N por uso de factores de ganancia aplicados a cada objeto 141 a 14N.
[00029] En caso de una señal de conversión estereofónica de multicanal a estéreo, qué caso es ejemplificado en la Figura 1, un factor de ganancia D1,i se aplica al objeto i y luego toda la ganancia los objetos amplificados son sumados a fin de obtener el canal de conversión de multicanal a estéreo de izquierda L0, y factores de ganancia D2,i me aplico para oponerme i y luego los objetos amplificados por la ganancia son sumados a fin de obtener el canal de conversión de multicanal a estéreo derecho R0. Así, factores D1,i y D2,i formo una matriz de conversión de multicanal a estéreo D del tamaño 2xN con:
 Obj 1 
LO ⎜
RO ⎜⎟
( ) = D ⋅ M
D L D
1,1 1N
⎜⎟
D =( ) Obj
D L D  N ⎠
2,1 N
y.
[00030] Esta prescripción de conversión de multicanal a estéreo es señalada al lado decodificador por medio de abajo DMGi de ganancias de mezcla y, en caso de una señal de conversión estereofónica de multicanal a estéreo, diferencias de nivel de canal de conversión de multicanal a estéreo DCLDi.
[00031] Las ganancias de conversión de multicanal a estéreo se calculan según:
22
DMG = 10log ( D + D +ε)
i 10 1, i 2, i
, dondeε es un número pequeño tal como 10-9 o 96dB entrada de señal a continuación máxima.
[00032] Para el DCLDs la siguiente fórmula aplica:
D2
l ,i
DCLD = 10 log ()
D2
1 10
2,i
.
[00033] El convertidor de multicanal a estéreo 16 genera la señal de conversión estereofónica de multicanal a estéreo según:
 Obj 
 L0⎞ D1 ⎞ 1 
 ⎟⎜ M
⎜ = ⎜ ⋅⎜⎟
R0 D
 ⎠ 2 ⎠ ⎟
Obj
 N 
[00034] Así, en las fórmulas anteriormente mencionadas, los parámetros ANTERIORES e IOC son una función de las señales de audio y parámetros DMG y DCLD son una función de D. A propósito, esto se observa que D puede variar a tiempo.
[00035] En caso de la renderización binaural, qué modo de operación del decodificador se describe aquí, la señal de salida naturalmente comprende dos canales, es decir M’ =2. Sin embargo, la información de renderización ya mencionada 26 indica en cuanto a cómo las señales de entrada 141 a 14N deben ser distribuidas en posiciones de altavoz virtuales 1 a M donde M podría ser más elevado que 2. La información de renderización, así, puede comprender M de la matriz de renderización de indicación en cuanto a cómo la entrada objeta a que obji debieran ser E09778738
05-03-2015
distribuidos en las posiciones de altavoz virtuales j para obtener señales de altavoz virtuales vsj con j que está entre 1 y M inclusivamente y yo que estoy entre 1 y N inclusivamente, con:
⎛  
⎛  ⎞  
Obj 1
M
⎞  
vs
1
M
M ⋅
=
Obj
N
vs
M

5 [00036] La información de renderización puede proporcionarse o introducir por el usuario en ninguna forma. Esto puede incluso posible que la información de renderización 26 esté contenida dentro de la información conexa de la transmisión SAOC 21 sí mismo. Por supuesto, la información de renderización puede dejarse hacerse variar a tiempo. Por ejemplo, la resolución de tiempo puede igualar la resolución de cuadro, es decir M puede definirse por cuadro 36. Incluso una varianza de M por la frecuencia puede ser posible. Por ejemplo, M podría definirse para cada
,
lm 10 recuadro 39. Después, por ejemplo, Mren se usará para denotar M, con m de denotación de la banda de frecuencia y l denotación de la fracción de tiempo de parámetro 38.
[00037] Finalmente, en el seguir, el HRTFs 27 se mencionará. Estos HRTFs describen como una señal j de altavoz virtual es volverse en el oído derecho e izquierdo, respectivamente, de modo que las señales de aviso binaurales se 15 conserven. En otras palabras, para cada posición de altavoz virtual j, dos HRTFs existen, a saber un para el oído de izquierda y otro para el oído derecho. COMO se describirá más detalladamente después, es posible que el decodificador se proporcione con parámetros HRTF 27 que comprenden, para cada posición de altavoz virtual j, un
Φ j
desplazamiento de desplazamiento de fase que describe el desplazamiento de desplazamiento de fase entre las señales recibidas por ambos oídos y se origina de la misma fuente j, y dos Pi de amplificaciones/atenuaciones de 20 amplitud, Ry Pi, L para el oído izquierdo y derecho, respectivamente, describiendo las atenuaciones de ambas señales debido al cabezal del oyente. El parámetro HRTF 27 podría ser constante con el tiempo, pero se define a alguna resolución de la frecuencia que podría ser igual a la resolución de parámetro SAOC, es decir, por banda de
mm m
Φ PP
jj,Rj,L
frecuencia. A continuación, los parámetros HRTF se les proporcionan como , y con m de denotación de la banda de frecuencia.
25 [00038] La Figura 3 muestra al decodificador SAOC 12 de la Figura 1 más detalladamente. Como se muestra en esa parte, el decodificador 12 comprende una unidad de proceso previo de conversión de multicanal a estéreo 40 y una unidad de procesamiento de datos de parámetro SAOC 42. La unidad de proceso previo de conversión de multicanal a estéreo 40 se configura para recibir la señal 18 de conversión estereofónica de multicanal a estéreo y convertir
30 mismo en la señal de salida binaural 24. La unidad de proceso previo de conversión de multicanal a estéreo 40 lleva a cabo esta conversión en una manera controlada por la unidad de procesamiento de datos de parámetro SAOC 42. En términos particulares, la unidad de procesamiento de datos de parámetro SAOC 42 proporciona la unidad de proceso previo de conversión de multicanal a estéreo 40 por una información de prescripción de renderización 44 que la unidad de procesamiento de datos de parámetro SAOC 42 deriva de la información conexa SAOC 20 e
35 información de renderización 26.
[00039] La Figura 4 muestra la unidad de proceso previo de conversión de multicanal a estéreo 40 de acuerdo con una modalidad de la presente invención más detalladamente. En términos particulares, de acuerdo con la Figura 4, la unidad de proceso previo de conversión de multicanal a estéreo 40 comprende dos trayectos conectados en
40 paralelo entre la entrada en donde la señal 18 de conversión estereofónica de multicanal a estéreo, es decir se n,kn,k
recibe X , y una salida de la unidad 40 en donde la señal de salida binaural Xˆes enviada, a saber un trayecto llamado trayecto de renderizado seco 46 hacia donde una unidad de renderización seca es en serie conectada, y un trayecto de renderizado húmedo 48 hacia donde un generador de señal de decorrelación 50 y una unidad de renderización húmeda 52 se conecta en serie, donde unas mezclas de etapa 53 mezcladas las salidas de ambos
45 trayectos de renderizado 46 y 48 para obtener el resultado final, a saber la señal de salida binaural 24.
[00040] Como se describirá más detalladamente después, la unidad de renderización seca 47 se configura para calcular una señal de salida binaural preliminar 54 de la señal 18 de conversión estereofónica de multicanal a estéreo con la señal de salida binaural preliminar 54 que representa la salida del trayecto de renderización seco 46 –
50 también llamado a veces “señal binaural seca” o simplemente “señal seca” a continuación. La unidad de renderización seca 47 lleva a cabo su cálculo basado en una prescripción de renderización seca presentado por la unidad de procesamiento de datos de parámetro SAOC 42. En la modalidad específica descrita después, la prescripción de renderización se define por Gnk de la matriz de renderización seco,. La condición sólo mencionada se ilustra en la Figura 4 por medio de una flecha rota.
55
n,kXd
[00041] El generador de señal no correlacionado 50 se configura para generar una señal no correlacionada de la señal 18 de conversión estereofónica de multicanal a estéreo por la conversión de multicanal a estéreo el que
10
15
20
25
30
35
40
45
50
55
60 E09778738
05-03-2015
mismo es un equivalente perceptual con una conversión monoaural de multicanal a estéreo del canal izquierdo y derecho de la señal 18 de conversión estereofónica de multicanal a estéreo con, sin embargo, es decorrelacionado a la conversión monoaural de multicanal a estéreo. como se muestra en la Figura 4, el generador de señal no correlacionado 50 puede comprender un circuito sumador 56 para sumar el canal derecho e izquierdo de la señal 18 de conversión estereofónica de multicanal a estéreo a, por ejemplo, una proporción 1:1 o, por ejemplo, alguna otra proporción fija para obtener la respectiva conversión monoaural de multicanal a estéreo 58, seguido de un
n,k
X
decorrelacionador 60 para generar la señal no correlacionada ya mencionada d . El decorrelacionador 60 puede
n,kXd
comprender, por ejemplo, uno o más etapas de retraso a fin de formar la señal no correlacionada de la versión retardada o una suma ponderada de las versiones retardadas de la conversión monoaural de multicanal a estéreo 58 o incluso una suma ponderada sobre la conversión monoaural de multicanal a estéreo 58 y la versión (ones) retardada de la conversión monoaural de multicanal a estéreo. Por supuesto, hay muchas alternativas para el decorrelacionador 60. En efecto, la decorrelación llevada a cabo por el decorrelacionador 60 y el generador de señal no correlacionado 50, respectivamente, tiende a bajar la coherencia entre canales entre la señal 62 no correlacionada y la conversión monoaural de multicanal a estéreo 58 cuando medido por la fórmula anteriormente mencionada correspondiente a la correlación cruzada entre objetos, con mantener sustancialmente las diferencias de nivel de objeto de lo mismo cuando medido por la fórmula anteriormente mencionada para diferencias de nivel de objeto.
[00042] La unidad de renderización húmeda 52 se configura para calcular una señal de salida binaural correctiva 64 de la señal 62 no correlacionada, la señal de salida binaural correctiva obtenida 64 representación de la salida del trayecto de renderización húmedo 48 – también llamado a veces “señal binaural húmeda” o simplemente “señal húmeda” a continuación. La unidad de renderización húmeda 52 bases su cálculo en una prescripción de renderización húmeda que, por su parte, depende de la prescripción de renderización seca usada por la unidad de renderización seca 47 como describe después. En consecuencia, la prescripción de renderización húmeda que se indica como P2n, k en la Figura 4, se obtiene de la unidad de procesamiento de datos de parámetro SAOC 42 como se indica por la flecha rota en la Figura 4.
[00043] Las mezclas de etapa 53 mezcladas ambas señales de salida binaural 54 y 64 de los trayectos de renderización secos y húmedos 46 y 48 para obtener la señal de salida binaural final 24. Como se muestra en la Figura 4, la etapa 53 mezclada se configura para mezclar los canales derechos e izquierdos de las señales de salida binaural 54 y 64 individualmente y puede comprender, en consecuencia, un circuito sumador 66 para sumar los canales de izquierda de lo mismo y un circuito sumador 68 para sumar los canales derechos de lo mismo, respectivamente.
[00044] Después de que tener describió la estructura del decodificador SAOC 12 y la estructura interna de la unidad de proceso previo de conversión de multicanal a estéreo 40, la funcionalidad de lo mismo se describe en el seguir. En términos particulares, las modalidades detalladas descritas después de diferentes alternativas presentes para la unidad de procesamiento de datos de parámetro SAOC 42 para derivar la información de prescripción de renderización 44 así control de la coherencia entre canales de la señal 24 de objeto binaural. En otras palabras, la unidad de procesamiento de datos de parámetro SAOC 42 no sólo calcula la información de prescripción de renderización 44, pero simultáneamente controla la proporción de mezcla por la cual las señales 55 y 64 binaurales preliminares y correctivas se mezclan en la señal de salida binaural final 24.
[00045] De acuerdo con una primera alternativa, la unidad de procesamiento de datos de parámetro SAOC 42 se configura para controlar la proporción de mezcla sólo mencionada como se muestra en la Figura 5. En términos particulares, en una etapa 80, un valor de coherencia entre canales binaural actual de la señal de salida binaural preliminar 54 se determina o estimado por la unidad 42. En una etapa 82, la unidad de procesamiento de datos de parámetro de SAOC 42 determina un valor de coherencia entre canales binaural con especificidad de objetivo. Basado en estos valores de coherencia entre canales determinados, la unidad de procesamiento de datos de parámetro SAOC 42 conjuntos la proporción de mezcla ya mencionada en etapa 84. En términos particulares, la etapa 84 puede comprender la unidad de procesamiento de datos de parámetro SAOC 42 apropiadamente de calcular la prescripción de renderización seca usada por la unidad de renderización seca 42 y la prescripción de renderización húmeda usada por la unidad de renderización húmeda 52, respectivamente, basado en los valores de coherencia entre canales determinados en etapas 80 y 82, respectivamente.
[00046] A continuación, las alternativas ya mencionadas se describirán en una base matemática. Las alternativas se diferencian de entre sí en el modo que la unidad de procesamiento de datos de parámetro SAOC 42 determina la información de prescripción de renderización 44, incluyendo la prescripción de renderización seca y la prescripción de renderización húmeda con controlar intrínsecamente la proporción de mezcla entre trayectos de renderización secos y húmedos 46 y 48. De acuerdo con la primera alternativa representada en la Figura 5, la unidad de procesamiento de datos de parámetro SAOC 42 determina un valor de coherencia entre canales binaural con especificidad de objetivo. Como se describirá más detalladamente después, la unidad 42 puede llevar a cabo esta determinación basada en componentes de una matriz de coherencia con especificidad de objetivo F=A· E · Un *, con “*” la denotación del conjugado transporta, un que es una matriz de renderización binaural con especificidad de
E09778738
05-03-2015
objetivo relación de los objetos/señales de audio 1 … N al canal izquierdo y derecho de la señal de salida binaural 24 y señal de salida binaural preliminar 54, respectivamente, y que se deriva de la información de renderización 26 y parámetros HRTF 27, y E que es una matriz los coeficientes de que se derivan del IOCijl, m y diferencias de nivel de objeto OLDil, m. El cálculo puede llevarse a cabo en la resolución espacial/temporal de los parámetros SAOC, es
5 decir para cada uno (l, m). Sin embargo, es adicional posible llevar a cabo el cálculo en una resolución inferior con la interpolación entre los respectivos resultados. La última declaración también es verdadera para los cálculos subsecuentes dispuestos después.
[00047] Como la matriz de renderización binaural con especificidad de objetivo A se relacionan los objetos de
10 entrada 1 … N a los canales derechos e izquierdos de la señal de salida binaural 24 y la señal de salida binaural preliminar 54, respectivamente, mismo es del tamaño 2xN, es decir.
a ... a
11 1N
A =( )
a ... a
21 2 N
[00048] La matriz ya mencionada E es del tamaño NxN con sus coeficientes que se definen como:
eij = ⋅ max (IOC ij ,0)
15 [00049] Así, la matriz E con:
imagen2
e11
L Ne1
M
O
M
Ne 1
L NN e
Ε =
  ⎜
  ⎟
tiene a lo largo de ello la diagonal las diferencias de nivel de objeto, es decir:
eii = OLD i
20
IOCij = 1 for i = j
ya que mientras que la matriz E tiene fuera de sus coeficientes de la matriz diagonales que representan la media geométrica de las diferencias de nivel de objeto de objetos i y j, respectivamente, ponderado
IOC
ij
con la medida de correlación cruzada entre objetos (se proporcionó mismo es mayor que 0 con los coeficientes que se configuran a 0 otra cosa).
25 [00050] Comparado al mismo, las segundas y terceras alternativas descritas después, procuran obtener las matrices de renderización encontrando el mejor partido en el sentido menos cuadrado de la ecuación que se corresponde de la señal 18 de conversión estereofónica de multicanal a estéreo en la señal de salida binaural preliminar 54 por medio de la matriz de renderización seca G a la ecuación de renderización con especificidad de objetivo que se
30 corresponde de los objetos de entrada vía lado a lado matriz un en la señal de salida binaural "con especificidad de objetivo" 24 con segundo y tercer diferenciarse alternativo de entre sí en el modo que el mejor partido se forma y el modo que la matriz de renderización húmeda se selecciona.
[00051] A fin de aliviar la comprensión de las siguientes alternativas, la descripción ya mencionada de Figuras 3 y 4 35 es matemáticamente descrita de nuevo. Como descrito antes, la señal 18 de conversión estereofónica de multicanal
n,k
a estéreo X alcanza el decodificador SAOC 12 junto con los parámetros SAOC 20 y usuario información de renderización definida 26. Adicionalmente, el decodificador de SAOC 12 y unidad de procesamiento de datos de parámetro SAOC 42, respectivamente, tiene el acceso a una base de datos HRTF como se indica por la flecha 27.
OLD l,m
Los parámetros SAOC transmitidos comprenden diferencias de nivel de objeto i, valores de correlación
lm lm
IOC ij, DMG ,
40 cruzados entre objetos , las ganancias de conversión de multicanal a estéreo iy las diferencias
DCLD il,m
de nivel de canal de conversión de multicanal a estéreo para todo N se oponen i, j con "l, m" de denotación del respectivo tiempo / recuadro espectral 39 con l especificación del tiempo y m de especificación de la
m m m
P P Φ
q,L q,Rq
frecuencia. Se supone, ejemplarmente, que los parámetros HRTF 27 se les proporcionen como , y
para todas las posiciones de altavoz virtuales o posición de la fuente de sonido espacial virtual q, para la izquierda 45 (L) y derecha (R) canal binaural y para todas las bandas de frecuencia m.
E09778738
05-03-2015
[00052] La unidad de proceso previo de conversión de multicanal a estéreo 40 se configura para calcular la salida
n,k n,k
binaural Xˆ, tan calculada de la conversión estereofónica de multicanal a estéreo X y señal de conversión
n,kXd
monoaural de multicanal a estéreo decorrelacionada como:
n,kn,kn,kn,kn,k
ˆ
X = GX + P2 Xd
5
n,k
X
[00053] La señal no correlacionada es d perceptivamente equivalente a la suma 58 de los canales de conversión de multicanal a estéreo derechos e izquierdos de la señal 18 de conversión estereofónica de multicanal a estéreo, pero máximamente decorrelacionado a ello según:
n,k ,
Xd = decorrFunction ((11)X nk )
10 [00054] Respecto a la Figura 4, el generador de señal no correlacionado 50 lleva a cabo la función decorrFunction de la fórmula anteriormente mencionada.
[00055] Adicionalmente, como también descrito antes, la unidad de proceso previo de conversión de multicanal a
15 estéreo 40 comprende dos trayectos de renderizado paralelos 46 y 48. En consecuencia, la ecuación anteriormente mencionada se basa en dos matrices dependientes de tiempo/frecuencia, a saber, Gl, m para el seco y P2l, m para el trayecto de renderizado húmedo.
[00056] Como se muestra en la Figura 4, la decorrelación en el trayecto de renderizado húmedo puede ponerse en
20 práctica por la suma del canal de conversión de multicanal a estéreo derecho e izquierdo que se alimenta en un decorrelacionador 60 que genera una señal 62, que es perceptivamente equivalente, pero máximamente decorrelacionada a su entrada 58.
[00057] Los elementos de las matrices sólo mencionadas se calculan por la unidad de proceso previo SAOC 42.
25 Como también denotado antes, los elementos de las matrices sólo mencionadas pueden calcularse en la resolución de tiempo/frecuencia de los parámetros SAOC, es decir para cada intervalo temporal l y cada banda de procesamiento m. Los elementos de la matriz obtenidos pueden ser extendidos sobre la frecuencia e interpolados a tiempo dando como resultado matrices En, k y P2l, m definido para todos los intervalos temporales de banco de filtros n y subbandas de frecuencia k. Sin embargo, como ya antes, allí también son alternativas. Por ejemplo, la
30 interpolación podría dejarse lejos, de modo que en el antes de la ecuación, los índices n, k pudieran ser con eficacia reemplazados por “l, m”. Más aún, el cálculo de los elementos de las matrices sólo mencionadas podría llevarse a cabo incluso a una resolución de tiempo/frecuencia reducida con la interpolación en la resolución l, m o n, k. Así, nuevamente, aunque en el seguir, los índices l, m indique que los cálculos de la matriz se llevan a cabo para cada recuadro 39, el cálculo puede llevarse a cabo a alguna resolución inferior donde, aplicando las respectivas matrices
35 por la unidad de proceso previo de conversión de multicanal a estéreo 40, las matrices de renderización pueden ser interpoladas hasta una resolución final tal como abajo a la resolución de tiempo/frecuencia QMF de los valores de la subbanda individuales 32.
[00058] Según la primera alternativa anteriormente mencionada, la matriz de renderizado seca Gl,m se calcula para 40 la izquierda y el canal de conversión de multicanal a estéreo derecho por separado el que:
l ,m,1 l ,m,2
l,m,1 l ,ml ,m φ l,m,2 l ,ml ,m φ
P cos (β +α)exp (j ) P cos (β +α)exp (j )
L 2 L 2
l ,m,2
φ
⎞⎟⎟⎠
)
,
Glm =
(−
l ,m,1
,, φ ,,
(β)(−) (β)
R
l,m,2
lm lm
l,m,1
lm lm
−α
⎜⎜
−α
P
jPR j
cos exp cos exp
22
imagen3
f
V
l ,m,x 22 l ,m ,x
,
l,m,x
l,m,x
PR
PL
=
=
imagen4
φ
l,m,x
=
 ⎪⎨⎪
arg
l ,m,x
( f ) if ≤ m ≤ const 1 ∧
const
0
12 2
l,m,xl,m,x
ff
11 22
0 else
donde el const1
puede ser, por ejemplo, 11 y const2 puede ser 0.6. El índice x denota la izquierda o canal de
conversión de multicanal a estéreo derecho y en consecuencia asume o 1 o 2.
[00060] En términos generales, el antes de que la condición se distinga entre un intervalo espectral más elevado y 50 un intervalo espectral inferior y, sobre todo, sólo sea (potencialmente) realizada para el intervalo espectral inferior.
10
15
20
25
30
35
40 E09778738
05-03-2015
[00061] Además o alternativamente, la condición es dependiente de en cuanto a si uno del valor de coherencia entre canales binaural actual y el valor de coherencia entre canales binaural con especificidad de objetivo tiene una relación predeterminada a un valor umbral de coherencia o no, con la condición que es (potencialmente), realizada sólo si la coherencia excede el valor umbral. Las subcondiciones individuales sólo mencionadas, como se indica antes, pueden combinarse por medio de un y operación. Vl escalar, m,x se calcula como:
Vl ,m,xl ,m,xl,ml ,m,x
= DE (D )+ ε.
[00062] Esto se observa que ε puede ser igual que o diferente al mencionado ε antes con respecto a la definición de las ganancias de conversión de multicanal a estéreo. La matriz E se ha introducido ya antes. El índice (l, m) simplemente denota la dependencia de tiempo/frecuencia del cálculo de la matriz como ya mencionado antes. Adicionalmente, las matrices Dl, m, x también tiene mencionado antes, con respecto a la definición de las ganancias de conversión de multicanal a estéreo y las diferencias de nivel de canal de conversión de multicanal a estéreo, de modo que Dl, m, 1 correspondan a D1 ya mencionado y Dl, m, 2 corresponde a D2 ya mencionado.
[00063] Sin embargo, a fin de aliviar la comprensión como la unidad de procesamiento de datos de parámetro SAOC 42 deriva la matriz de renderizado seca Gl,m de los parámetros SAOC recibidos, la correspondencia entre la matriz de conversión de multicanal a estéreo de canal Dl, m, x y la prescripción de conversión de multicanal a estéreo que
lm lm
DMG . DCLD ,
comprende las ganancias de conversión de multicanal a estéreo iy ise presenta nuevamente, l,m,x
d
en la dirección inversa. En términos particulares, los elementos i de la matriz de conversión de multicanal a l,m,xl ,m,x
d ,... d
estéreo de canal Dl, m, x de tamaño 1xN, es decir. Dl, m, x =( 1 N ) se les proporcionan como:
imagen5l ,ml ,m imagen6l ,m
l,m,1 DMG i di l,m,2 DMG i 1
d = 10 ~, d = 10
il ,mi l ,m
20 20
1+d 1+d
ii
~
l,m
di
con el elemento que se define como:
l ,mDCLDi
~
l,m
10
di = 10
.
l,m,xl,m,x lm,x
φ ,
PP
[00064] En la ecuación superior de Gl, m, las ganancias Ly Ry las diferencias de fase dependen de coeficientes fuv de una matriz de covariancia de objetivo de paciente de canal-x Fl,m, x, que, por su parte, como se
l,m,xeij
configurará más detalladamente después, depende de una matriz el-, m, x del tamaño NxN los elementos de que se calculan como:
l ,m,xl ,m,x
l,m,xl,m di dj
e
= e ( )( ).
ij ij l ,m,1 l ,m,2 l ,m,1 l ,m,2
d +dd +d
ii jj
lm ,
,Elm
eij N × N
[00065] Los elementos de la matriz de tamaño son, tan declarados antes, proporcionado
, imagen7lm , lm lm ,
lm ,
e = OLD ⋅OLD ⋅ max( IOC ,0)
ij ij ij
como: .
,,
Flmx
[00066] La matriz de covariancia con especificidad de objetivo sólo mencionada del tamaño 2× 2 con
,,
lmx fuv
elementos es, de manera similar a la matriz de covariancia F indicada antes, proporcionado como:
l ,m, xl,ml,m, xl ,m
F = AE (A )*
, donde “*” corresponde al conjugado transportan.
,
Alm
[00067] La matriz de renderización binaural con especificidad de objetivo se deriva de los parámetros
mm m
,
lm
Φ PP
qq,Rq,L M
ren
HRTF , y para todas las posiciones de altavoz virtuales NHRTF q y la matriz de renderización y es del
5
10
15
20
25
30
35
40
E09778738
05-03-2015
,
lm
tamaño 2× N . Sus elementos aui definen relación deseada entre todos los objetos i y la señal de salida binaural como:
N −1 mN −1 m
HRTF HRTF
 φ ⎞ φ ⎞
lm , lm , m qlm , m
, lm q
a1, i = ∑ mq i , Pq,L exp  j ⎟, a2, i = ∑ mq i , Pq,R exp  − j ⎟
⎜ ⎜
q=02 q=02
⎝ ⎝
.
,
lm M mqi
,
lm
ren
[00068] La matriz de renderización con elementos se relaciona cada objeto de audio i a un altavoz
virtual q representado por el HRTF.
P2l,m
[00069] La matriz de renderizado húmeda se calcula basada en la matriz de renderizado seca Gl, m como:
l ,m 12
l,ml,ml,m arg (c )
 P sin (β +α)exp (j ) 
l,m
P2 =  L 2 
l ,m
 l,ml,ml ,m arg (c12 ) ⎟
 P sin (β −α)exp (− j )⎠
R 2
lm lm
P , P ,
[00070] Las ganancias Ly Rse definen como:
l ,nimagen8l ,m
l,mimagen9c11 l,mc22
P = , PR = .
Ll ,ml ,m
VV
l ,m
c
u,v
[00071] El 2x2 matriz de covariancia Cl, m con elementos de la señal 54 binaural seca es estimado como:
*
~ *~
l,ml,ml,ml ,ml,ml,m
C = GDE (D )(G )
donde
l ,m ,1 l ,m,2
l,m,1 φ l ,m,2 φ
~  PL exp (j 2 ) PL exp (j 2 ) 
,
Glm ⎜⎟
=
 l ,m ,1 l ,m ,2 ⎟
l,m,1 φ l,m,2 φ
 P exp (− j ) P exp (− j )⎠
R 2 R 2
[00072] Vl escalar, m se calcula como:
*
Vl ,ml,ml ,ml,m
= WE (W ) +ε.
l,m
wi
[00073] Los elementos de la matriz de conversión monoaural de multicanal a estéreo húmeda Wl, m del tamaño 1xN se les proporciona como:
l ,ml,m,1 l ,m,2
w = d + d .
ii i
dl,m x,i
[00074] Los elementos de la matriz de conversión estereofónica de multicanal a estéreo Dl, m del tamaño 2xN se les proporciona como:
l,ml ,m,x
d = d .
x,ii
, αl, m y βl, m
[00075] En la ecuación anteriormente mencionada de Gl, mrepresentan los ángulos de los rotadores dedicado para el control de ICC. En términos particulares, el ángulo del rotador α l, m controla el mezclado de la señal binaural seca y húmeda a fin de ajustar el ICC de la salida binaural 24 a aquel del objetivo binaural. Al determinar a los ángulos de los rotadores, el ICC de la señal 54 binaural seca debería obtenerse en cuenta que es, según el contenido de audio y la matriz de conversión estereofónica de multicanal a estéreo D, por lo común más pequeño que 1.0 y mayor que ICC con especificidad de objetivo. Esto es en contraste con una conversión monoaural de multicanal a estéreo la renderización binaural basada donde el ICC de la señal binaural seca siempre sería igual a
1.0.
my βl, m
[00076] Los ángulos de los rotadores αl, controlan el mezclado de la señal binaural seca y húmeda. El
ρ l,m ICC C de la conversión estereofónica de multicanal a estéreo reproducida binaural seca 54 es, en la etapa 80, estimado como:
E09778738
05-03-2015
l,m
imagen10c
12
l,m 
ρC = min ,1
l,ml,m
 cc 
 11 22 
.
lm
ρ ,
[00077] ICC con especificidad de objetivo binaural total C es, en la etapa 82, estimado como, o determinado de ser:
imagen11l,m
f12
l,m 
ρT = min ,1
 l,ml,m ⎟
ff
5  11 22 
[00078] Los ángulos de los rotadores αl, m y βl, m para minimizar la energía de la señal húmeda son luego, en la etapa 84, ajustados para ser:
l ,m 1 l ,ml ,m
α=
2 (arccos (ρT )− arccos (ρC )),
l,m l,m
l.m  l ,m PR − PL ⎞
β= arctan  tan (α ) ⎟.
⎜l ,ml,m ⎟
P + P
 LR ⎠
10 [00079] Así, según la descripción matemática anteriormente descrita de la funcionalidad del decodificador SAOC 12 para generar la señal de salida binaural 24, la unidad de procesamiento de datos de parámetro SAOC 42 computa,
lm lm
ρ , ρ ,
en determinar de ICC binaural actual, C por el uso de las ecuaciones anteriormente presentadas para C y las
15 ecuaciones subsidiarias también presentadas antes. De forma similar, la unidad de procesamiento de datos de parámetro de SAOC 42 computa, en determinar de ICC binaural con especificidad de objetivo en la etapa 82, el
lm
ρ ,
parámetro C por la ecuación anteriormente indicada y las ecuaciones subsidiarias. En la base de lo mismo, la unidad de procesamiento de datos de parámetro SAOC 42 determina en la etapa 84 los ángulos de los rotadores, por tanto, estableciendo la proporción de mezcla entre el trayecto de renderización seco y húmedo. Con ángulos de
20 los rotadores, la unidad de procesamiento de datos de parámetro de SAOC 42 construye las matrices de
Gl ,m Pl,m renderización secas y húmedas o parámetros de conversión de estéreo a multicanal y 2que, por su parte, se usan por la unidad de proceso previo de conversión de multicanal a estéreo 40 -a la resolución n, k -a fin de derivar la señal de salida binaural 24 de la conversión estereofónica de multicanal a estéreo 18.
25 [00080] Deberse observar que la primera alternativa ya mencionada puede hacerse variar de algún modo. Por
lm
Φ ,
ejemplo, la ecuación anteriormente presentada para la diferencia de fase de intercanal C podría cambiarse hasta el punto de que la segunda subcondición podría comparar ICC actual de la conversión estereofónica de multicanal a estéreo reproducida binaural seca a const2 en vez del ICC determinado de la matriz de covariancia de paciente de
l ,ml ,m, x
cf
12 12
imagen12l ,m, xl ,m, x imagen13l ,ml ,m
ff cc
11 22 11 22
canal Fl, m, x de modo que en aquella la ecuación la porción fuera reemplazada por el término .
30 [00081] Adicionalmente, débase observar que, de acuerdo con la notación seleccionada, en algunas ecuaciones superiores, una matriz de todos los se ha dejado lejos cuando una constante escalar, como el e se agrega a una matriz de modo que esta constante se agregue a cada coeficiente de la respectiva matriz.
35 [00082] Una generación alternativa de la matriz de renderización seca con el potencial más elevado de la extracción de objeto se basa en un tratamiento conjunto de los canales de conversión de multicanal a estéreo derechos e izquierdos. Omitiendo al par de índice de subbanda para la claridad, el principio debe apuntar en el mejor partido en la menor parte de sentido de cuadrados de:
ˆ
X = GX
40 a la renderización con especificidad de objetivo:
Y = AS
.
[00083] Esto produce la matriz de covariancia con especificidad de objetivo:
* **
YY = ASSA
E09778738
05-03-2015
donde el complejo que proporcionan a la matriz de renderización binaural con especificidad de objetivo valorada A en una fórmula anterior y la matriz S contiene las señales de subbanda de objetos originales como hileras.
[00084] La menor parte de partido de cuadrados se calcula de la segunda información de orden derivada del objeto 5 transportado y datos de conversión de multicanal a estéreo. Es decir las siguientes substituciones se llevan a cabo:
XX * ↔ DED *,
YX * ↔ AED *,
YY * ↔ AEA *.
10 Para motivar las substituciones, recuerde que SAOC objetan parámetros información por lo común transportable sobre las energías de objeto correlaciones cruzadas entre objetos (ANTERIORES) y (seleccionadas) (IOC). De estos parámetros, la matriz de covariancia de objeto de NxN E se deriva, que representa una aproximación a SS *, es decir. E≈SS *, produciendo YY * = AEA*.
15 [00085] Adicionalmente, X=DS y la matriz de covariancia de conversión de multicanal a estéreo se convierten: XX* = DSS*D *, que nuevamente puede derivarse de E por XX * = DED*.
[00086] La matriz de renderización seca G se obtiene solucionando la menor parte de problema de cuadrados: 20 min {norma {Y-X}}.
* *
G = G0 = YX (XX ) 1
donde YX* se calcula como YX * = AED*.
[00087] Así, la unidad de renderización seca 42 determina que la señal de salida binaural Xˆ forma la señal de
25 conversión de multicanal a estéreo X por el uso dela matriz de renderizado seca 2x2 G, por Xˆ = GX , y la unidad
de procesamiento de datos de parámetro SAOC determinaG por el uso de las fórmulas superiores de ser:
** −1
G = AED (DED ),
[00088] Considerando este complejo matriz de renderización seca valorada, el complejo la matriz de renderización 30 húmeda valorada P -antes denotó que P2 -se calcula en la unidad de procesamiento de datos de parámetro SAOC 42 tomando en cuenta la matriz de error de covariancia ausente:
**
ΔR = YY − G0 XX G0*.
[00089] Esto puede mostrarse que esta matriz tiene resultado positivo y una opción preferida de P se les 35 proporciona seleccionando un vector propio de norma de unidad u correspondiente al valor propio más grande λ
de ΔR y modificándolo a escala según:
P =
*
V = WE (W ) +ε
donde el escalar V se calcula como observado antes, es decir.
40 [00090] En otras palabras, ya que el trayecto de renderizado húmedo se instala para corregir la correlación de la
**
ΔR = AEA − G0 DED G0*.
solución seca obtenida, representa la matriz de error de covariancia ausente, es
decir. YY * = Xˆ Xˆ *+ ΔR o, respectivamente, ΔR =YY*-Xˆ Xˆ *, y, por lo tanto, la unidad de procesamiento de
datos de parámetro SAOC 42 ajusta P tal que PPS * = ΔR , una solución para la cual se les proporciona seleccionando el vector propio de norma de unidad anteriormente mencionado u.
45 [00091] Un tercer método para generar matrices de renderización secas y húmedas representa una valoración de los parámetros de renderización basados en la señal de aviso predicción compleja reprimida y combina la ventaja de rehabilitar la estructura de covariancia compleja correcta con las ventajas del tratamiento conjunto de canales de conversión de multicanal a estéreo para la extracción de objeto mejorada. Una oportunidad adicional ofrecida por
50 este método es ser capaz de omitir la conversión de estéreo a multicanal húmeda totalmente en muchos casos, que así preparan el terreno para una versión de la renderización binaural con la complejidad computacional inferior.
imagen14
E09778738
05-03-2015
[00092] Como con la segunda alternativa, la tercera alternativa presentada después se basa en un tratamiento conjunto de los canales de conversión de multicanal a estéreo derechos e izquierdos. El principio debe apuntar en el mejor partido en la menor parte de sentido de cuadrados de:
ˆ
X = GX
5 a la renderización con especificidad de objetivo Y = COMO bajo la coacción de covariancia compleja correcta:
** *ˆˆ*
GXX G + VPP = YY .
[00093] Así, es el objetivo de encontrar una solución para G y P, este
1)YˆYˆ* =YY* (que es la coacción a la formulación en 2); y
10 2) el minuto {norma {Y-Yˆ }}, ya que es solicitado dentro de la segunda alternativa.
*
[00094] De la teoría de multiplicadores de Lagrange, resulta que allí existe una matriz autoadjunta M = M , el que:
MP = 0, y
15 MGXX* = YX *
[00095] En el caso genérico donde tanto YX* como XX* son no singulares esto sigue de la segunda ecuación que M
es no singular, y por lo tanto P = 0 es la única solución de la primera ecuación. Esto es una solución sin la m-1
renderización húmeda. La configuración K = esto puede observarse por que la conversión de estéreo a 20 multicanal seca correspondiente se les proporciona:
G = KG0 donde G0 es la solución profética derivada antes con respecto a la segunda alternativa, y la matriz autoadjunta K soluciona:
KG0XX*G0= YY*.
*K*
25 [00096] Si la positiva única y por lo tanto autoadjunta matriz raíz cuadrada de la matriz G0XX*G0 * se denotada por Q, entonces la solución puede ser escrita como:
K = Q-1 (QYY*Q) 1/2Q-1 .
30 [00097] Así, la unidad de procesamiento de datos de parámetro SAOC 42 determina G para ser: KG0= q-1 (QYY*Q) 1/2Q-1 G0=(G0DED*G0 *)-1 (G0 DED*G0 * AEA* G0 DED*G0 *) 1/2 (G0 DED*G0 *)-1 G0 con G0= AED* (DED *)-1 .
[00098] Para las raíces cuadradas internas habrá en general cuatro soluciones autoadjuntas, y la solución que da
como resultado al mejor partido de Xˆ a Y se selecciona.
35 [00099] En la práctica, uno tiene que limitar la matriz de renderización seca G = KG0 a un tamaño máximo, por ejemplo limitando la condición en la suma de cuadrados de valores absolutos de todos los coeficientes de la matriz de renderización secos, que pueden expresarse como:
traza(GG *) <gmax.
40 [000100] Si la solución viola esta condición que limita, una solución que apoya en el límite se encuentra en cambio. Esto se logra agregando la coacción:
traza (GG *) = gmax a las coacciones anteriores y derivar de nuevo las ecuaciones de Lagrange. Resulta que la ecuación anterior: 45 MGXX* = YX* tiene que ser reemplazado por:
MGXX *+ µ I = YX* donde µ es un parámetro complejo intermedio adicional e I es la matriz de identidad 2x2. Una solución con la renderización húmeda distinta a cero P resultará. En términos particulares, una solución para la matriz de
50 renderizado húmeda puede encontrarse por PPS * = (YY* -GXX*G*) / V = (AEA* -GDED*G*) / V, donde la opción de P es preferentemente basada en la consideración de valor propio ya indicada antes de que con respecto a la segunda alternativa, y V sea WEW * + e. La última determinación de P también es hecha por la unidad de procesamiento de datos de parámetro SAOC 42.
55 [000101] Las matrices determinadas G y P son usados luego por las unidades de renderización húmedas y secas como descritas antes.
[000102] Si se requiere una baja versión de complejidad, la siguiente etapa debe reemplazar incluso esta solución con una solución sin la renderización húmeda. Un método preferido de lograr esto es reducir los requerimientos en la
E09778738
05-03-2015
covariancia compleja para emparejar sólo en la diagonal, el que las energías de señal correctas todavía son logradas en los canales izquierdos y derechos, pero la covariancia cruzada se deja abierta.
[000103] En cuanto a las primeras pruebas de capacidad auditiva alternativas, subjetivas se llevan a cabo en un 5 cuarto de capacidad auditiva acústicamente aislado que es diseñado para permitir la escucha de alta calidad. El resultado es detallado después.
[000104] El pregrabado se lleva a cabo usando audífonos (STAX SR Lambda Pro con la gente de la laca Convertidor de D/A y SRM-Monitor de STAX). El método de prueba procedimientos de norma seguidos usados en
10 las pruebas de verificación de audio espaciales, basadas en “Múltiple Estímulo con Referencia Escondida y Anclas” (MUSHRA) método para el asesoramiento subjetivo de audio de calidad intermedio.
[000105] Un total de 5 oyentes participó en cada una de las pruebas llevadas a cabo. Todos los sujetos pueden considerarse como oyentes experimentados. De acuerdo con la metodología MUSHRA, los oyentes son con 15 instrucciones para comparar todas las condiciones de prueba con la referencia. Las condiciones de prueba son aleatorizadas automáticamente para cada artículo de prueba y para cada oyente. Respuestas subjetivas son registradas por un programa de MUSHRA asistido por ordenador en una escala en los límites 0 a 100. Una conmutación instantánea entre los artículos bajo la prueba es permitida. Las pruebas de MUSHRA se han llevado a cabo para evaluar el desempeño perceptual del procesamiento de estéreo a binaural descrito del MPEG sistema de
20 SAOC.
[000106] A fin de evaluar una ganancia de calidad perceptual del sistema descrito comparado con el mono al desempeño binaural, los artículos procesados por el mono al sistema binaural también son incluidos en la prueba. La correspondencia mono y señales de conversión de multicanal a estéreo y mono correspondientes son codificadas
25 porAACa80 kbits por segundo y por canal.
[000107] Ya que la base de datos de HRTF “KEMAR_MIT_COMPACT” se usa. La condición de referencia se ha generado por filtrar binaural de objetos con las respuestas a impulsos HRTF apropiadamente ponderadas que tienen en cuenta la renderización deseada. La condición de ancla es la baja pasada condición de referencia filtrada (a 3.5
30 kilohercios).
[000108] La Tabla 1 contiene la lista de los artículos de audio analizados.
Tabla 1 -Artículos de audio de las pruebas de capacidad auditiva
Artículos capacidad auditiva
para Objetos Nr. mono/estéreo Ángulos de objeto / Ganancias de objeto (dB)
disco1 disco2
10/0 [-30, 0, -20, 40, 5,-5, 120, 0, -20, -40] [-3, -3, -3, -3, -3, -3, -3, -3, -3,-3] [-30, 0, -20, 40, 5, -5, 120, 0, -20, -40] [-12, -12, 3, 3, -12, -12, 3, -12, 3, -12]
coffee1 coffee2
6/0 [10, -20, 25, -35, 0, 120 [0, -3, 0, 0, 0, 0] [10, -20, 25, -35, 0, 120] [3, -20, -15, -15, 3, 3]
pop2
1/5 [0, 30, -30, -90, 90, 0, 0, -120, 120, -45, 45] [4, -6, -6, 4, 4, -6, -6, -6, -6, -16, -16]
35 [000109] Cinco diferentes escenas se han analizado, que son el resultado de la renderización (mono o estéreo) objetos de 3 diferentes grupos de la fuente de objeto. Tres diferentes matrices de conversión de multicanal a estéreo se han aplicado en el codificador SAOC, ver la Tabla. 2.
40 Tabla 2 -Tipos de conversión de multicanal a estéreo
Tipo de conversión de multicanal a estéreo
Mono Stereo Dual mono
Notación Matlab
dmx1=unos(1,N); dmx2=ceros(2,N); dmx2(1,1:2:N)=1; smx2(2,2:2:N)=1; dmx3=unos(2,N):
[000110] Las pruebas de evaluación de calidad de presentación de conversión de estéreo a multicanal se han definido como enumerado en la Tabla 3.
5
10
15
20
25
30
35
40
45
50
55
E09778738
05-03-2015
Tabla 3 -Condiciones de prueba para capacidad auditiva
Condición de texto
Tipo de conversión de multicanal a estéreo Codificador central
x-1-b
Mono AAC@80kbps
x-2-b
Estéreo AAC@160kbps
x-2-b_Dual/Mono
Dual Mono AAC@160kbps
5222
Estéreo AAC@160kbps
5222_DualMono
Dual Mono AAC@160kbps
[000111] El sistema “5222" usa el preprocesador de conversión estereofónica de multicanal a estéreo como descrito en ISO/IEC JTC 1/Consejero principal 29/WG 11 (MPEG), el Documento N10045, “CD ISO/IEC Codificación espacial del objeto de audio 23003-2:200x (SAOC)”, 85to MPEG Hacer contacto, julio de 2008, Hannover, Alemania, con el
Al ,m
complejo matriz de renderización con especificidad de objetivo binaural valorada como una entrada. Es decir ningún control de ICC se lleva a cabo. La prueba de capacidad auditiva informal ha mostrado que considerando la
Al ,m
magnitud de para bandas superiores en vez de mantener ella el complejo valorado por todas las bandas mejora el desempeño. El mejorado “5222” sistema se ha usado en la prueba.
[000112] Una descripción corta en términos de diagramas que demuestran los resultados de pruebas de capacidad auditiva obtenidos puede encontrarse en la Figura 6. Estos complots muestran MUSHRA promedio que clasifica por artículo sobre todos los oyentes y el valor promedio estadístico sobre todos los artículos evaluados conjuntamente con los intervalos de confianza del 95 % asociados. Habría que observar que los datos para la referencia escondida se omiten en los complots de MUSHRA porque todos los sujetos lo han identificado correctamente.
[000113] Las siguientes observaciones pueden hacerse basadas mediante los resultados de las pruebas de capacidad auditiva: -“x-2-b_DualMono” lleva a cabo comparable a “5222”. -“x-2-b_DualMono” lleva a cabo claramente mejor que “5222_DualMono”. -“x-2-b_DualMono” lleva a cabo comparable a “x-1-b” -“x-2-b” puesto en práctica según la primera alternativa superior, lleva a cabo ligeramente mejor que todas otras condiciones. -el artículo “disco1” no muestra mucha variación en los resultados y puede no ser adecuado.
[000114] Así, un concepto para la renderización binaural de señales de conversión estereofónica de multicanal a estéreo en SAOC se ha descrito antes, que cumple requisitos para de diferentes matrices de conversión de multicanal a estéreo. Particularmente la calidad para el dual mono como conversiones de multicanal a estéreo es igual que para conversiones monoaurales de multicanal a estéreo verdaderas que ha sido verificado en una prueba de capacidad auditiva. La mejora de la calidad que puede obtenerse de conversiones estereofónicas de multicanal a estéreo comparado con conversiones monoaurales de multicanal a estéreo también puede observarse de la prueba de capacidad auditiva. Los bloques de procesamiento básicos de las modalidades anteriores son la renderización binaural seca de la conversión estereofónica de multicanal a estéreo y el mezclado con una señal binaural húmeda con una combinación apropiada de ambos bloques.
En términos particulares, la señal binaural húmeda se calcula usando un decorrelacionador con la entrada de conversión monoaural de multicanal a estéreo de modo que las energías derechas e izquierdas y el IPD son iguales como en la señal binaural seca.
El mezclado de las señales binaurales húmedas y secas se controla por ICC con especificidad de objetivo y el ICC de la señal binaural seca de modo que la decorrelación por lo común menos sea requerida que para la conversión monoaural de multicanal a estéreo renderización binaural basada calidad de sonido total dando como resultado más elevada.
Adicionalmente, las modalidades anteriores, puede ser fácilmente modificado para cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo y salida mono/estéreo/binaural en una manera estable.
[000115] En otras palabras, las modalidades que proporcionan una estructura de procesamiento de señal y método para decodificación y renderización binaural de la conversión estereofónica de multicanal a estéreo trenes de bits SAOC basados con el control de coherencia entre canales se describen antes. Todas las combinaciones de mono o entrada de conversión estereofónica de multicanal a estéreo y salida mono, estéreo o binaural pueden ser manejadas como casos especiales de la conversión estereofónica de multicanal a estéreo descrita concepto basado. La calidad de la conversión estereofónica de multicanal a estéreo el concepto basado resultó ser por lo común mejor que la conversión monoaural de multicanal a estéreo el concepto basado que es verificado en MUSHRA anteriormente descrito que escucha la prueba.
[000116] En la Codificación espacial del objeto de audio (SAOC) ISO/IEC JTC 1/Consejero principal 29/WG 11 (MPEG), el Documento N10045, “el CD ISO/IEC Codificación espacial del objeto de audio 23003-2:200x (SAOC)”, el
15
25
35
45
55
65 E09778738
05-03-2015
85 Congreso MPEG, julio de 2008, Hannover, Alemania, se convierten múltiples objetos de audio de multicanal a una señal mono o estéreo. Esta señal es codificada y transmitida conjuntamente con la información conexa (parámetros de SAOC) al decodificador SAOC. Las modalidades anteriores habilitan la coherencia entre canales (ICC) de la señal de salida binaural que es una medida importante para la percepción de la anchura de fuente de sonido virtual, y que es, debido a la conversión de multicanal a estéreo codificador, degradada o incluso destruyó, (casi) completamente para corregirse.
[000117] Las entradas al sistema son la conversión estereofónica de multicanal a estéreo, parámetros de SAOC, información de renderización espacial y una base de datos HRTF. La salida es la señal binaural. Ambas entrada y salida se les proporciona en el dominio de transformación de decodificador por lo común por medio de un complejo sobremuestreado el banco de filtros de análisis modulado, como el banco de filtros QMF de híbrido de Sonido envolvente de MPEG, ISO/IEC 23003-1:2007, Tecnología de la información -tecnologías de audio de MPEG -la Parte 1: Sonido envolvente de MPEG con suficientemente baja distorsión por plegado del espectro intrabanda. La señal de salida binaural se convierte nuevamente al dominio temporal de PCM por medio del banco de filtros de síntesis. El sistema es así, en otras palabras, una extensión de una conversión monoaural de multicanal a estéreo potencial renderización binaural basada hacia señales de conversión estereofónica de multicanal a estéreo. Ya que la conversión monoaural de multicanal a estéreo dual señala que la salida del sistema es igual que para la conversión monoaural de multicanal a estéreo el sistema basado. Por lo tanto el sistema puede manejar cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo y salida mono/estéreo/binaural fijando los parámetros de renderización apropiadamente en una manera estable.
[000118] En incluso otras palabras, las modalidades anteriores llevan a cabo la renderización binaural y la decodificación de la conversión estereofónica de multicanal a estéreo trenes binarios SAOC basados con el control de ICC. Comparado con una conversión monoaural de multicanal a estéreo renderización binaural basada, las modalidades pueden aprovechar la conversión estereofónica de multicanal a estéreo de dos modos: -Las propiedades de correlación entre objetos en diferentes canales de conversión de multicanal a estéreo son en parte conservadas -Objetar a que la extracción sea mejorada ya que pocos objetos se encuentran en un canal de conversión de multicanal a estéreo
[000119] Así, un concepto para la renderización binaural de señales de conversión estereofónica de multicanal a estéreo en SAOC se ha descrito antes de que esto cumpla requisitos para de diferentes matrices de conversión de multicanal a estéreo. En términos particulares, la calidad para el dual mono como conversiones de multicanal a estéreo es igual que para conversiones monoaurales de multicanal a estéreo verdaderas que ha sido verificado en una prueba de capacidad auditiva. La mejora de la calidad que puede obtenerse de conversiones estereofónicas de multicanal a estéreo comparado con conversiones monoaurales de multicanal a estéreo también puede observarse de la prueba de capacidad auditiva. Los bloques de procesamiento básicos de las modalidades anteriores son la renderización binaural seca de la conversión estereofónica de multicanal a estéreo y el mezclado con una señal binaural húmeda con una combinación apropiada de ambos bloques. En términos particulares, la señal binaural húmeda se calcula usando un decorrelacionador con la entrada de conversión monoaural de multicanal a estéreo de modo que las energías derechas e izquierdas y el IPD son iguales como en la señal binaural seca. El mezclado de las señales binaurales húmedas y secas se controla por ICC con especificidad de objetivo y la conversión monoaural de multicanal a estéreo la renderización binaural basada calidad de sonido total dando como resultado más elevada. Adicionalmente, las modalidades anteriores pueden ser fácilmente modificadas para cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo y salida mono/estéreo/binaural en una manera estable. De acuerdo con las modalidades, la señal de conversión estereofónica de multicanal a estéreo Xn, k se obtiene conjuntamente con los parámetros SAOC, usuario información de renderización definida y una base de datos HRTF como entradas. Los parámetros SAOC transmitidos son OLDil, m (objete diferencias de nivel), IOCijl, m (correlación cruzada entre objetos), DMGil, m (ganancias de conversión de multicanal a estéreo) y DCLDil, m (diferencias de nivel de canal de conversión de multicanal a estéreo) para todo N se opone i, j. Los parámetros
mm m
PP φ
q,Lq,Rq
HRTF se les proporcionan como , y para todo el índice q de base de datos HRTF, que se asocia con
una cierta posición de la fuente de sonido espacial.
[000120] Finalmente, esto se observa que aunque dentro de la descripción anterior, los términos “entre canales de coherencia” y “correlación cruzada entre objetos” se hayan construido diferentemente en aquella "la coherencia" se usa en un término y “se cruzan la correlación” se usa en el otro, los últimos términos se pueden usar de modo indistinto como una medida para semejanzas entre canales y objetos, respectivamente.
[000121] Según una realización actual, el concepto de renderización binaural inventivo puede ponerse en práctica en el hardware o en el software. Por lo tanto, la presente invención también se relaciona con un programa informático, que puede almacenarse en un medio legible por computadora, como un CD, un disco, DVD, una barra de memoria, una tarjeta de memoria o un microcircuito de memoria. La presente invención es, por lo tanto, también un programa informático que tiene un código de programación que, cuando ejecutado en una computadora, lleva a cabo el método inventivo de codificar, convirtiendo o decodificando descrito en relación con las figuras anteriores. Más aún, esto se observa que todas las etapas indicadas en los organigramas se ponen en práctica por el
10
15
20
25
30
35
40
45
E09778738
05-03-2015
respectivo medio en el decodificador, respectivamente, un que las realizaciones pueden comprender subrutinas que funcionan en una unidad central de proceso, las partes de circuito de un ASIC o lo similar. Una declaración similar es verdad para las funciones de los bloques en los diagramas de bloques
[000122] En otras palabras, según una modalidad un aparato para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24) se proporciona, la señal de audio multicanal (21) que comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (141-14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) indicación, para cada señal de audio, hasta qué punto la respectiva señal de audio se ha mezclado en un primer canal (L0) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (IOC) descripción de semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el aparato que comprende el medio (47) para la informática, basada en una primera prescripción de renderización (Gl, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) de salida binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; el medio (50) para generar
n,kXd
una señal no correlacionada ( ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); medio (52) para informática, según una segunda prescripción de renderización (P2l, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) de salida binaural correctiva de la señal (62) no correlacionada; y medio (53) para mezclado la señal (54) de salida binaural preliminar con la señal (64) de salida binaural correctiva de obtener la señal de salida binaural (24).
Referencias
[000123]
ISO/IEC JTC 1/SC 29/WG 11 (MPEG), Document N10045, “ISO/IEC CD 23003-2:200x Spatial Audio Object Coding (SAOC)”, 85th MPEG Meeting, July 2008, Hannover, Alemania.
EBU Technical recommendation: “MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality”, Doc. B/AIM022, October 1999.
ISO/IEC 23003-1:2007, Information technology -MPEG audio technologies -Part 1: MPEG Surround.
ISO/IEC JTC1/SC29/WG11 (MPEG), Document N9099: “Final Spatial Audio Object Coding Evaluation Procedures and Criterion”. Abril de 2007, San Jose, EUA.
Jeroen, Breebaart, Christof Faller: Spatial Audio Processing. MPEG Surround and Other Applications. Wiley & Sons, 2007.
Jeroen, Breebaart et al.: Multi-Channel goes Mobile : MPEG Surround Binaural Rendering. AES 29th International Conference, Seúl, Corea, 2006.

Claims (11)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Un aparato para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24), la señal de audio multicanal (21) comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (141-14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) que indica, para cada señal de audio, hasta qué punto la respectiva señal de audio se ha mezclado en un primer canal (L0) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (IOC) que describe las semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el aparato estando configurado para: computar (47), basado en una primera prescripción de renderización (Gl, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) de salida binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; generar (50), a partir de la señal (18) de conversión estereofónica de multicanal a estéreo, una señal no
    n,k
    X
    correlacionada ( d ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); computar (52), según una segunda prescripción de renderización (P2l, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) de salida binaural correctiva de la señal (62) no correlacionada; y mezclar (53) la señal (54) de salida binaural preliminar con la señal (64) de salida binaural correctiva de obtener la señal de salida binaural (24).
  2. 2. Aparato según la reivindicación 1, en donde el aparato está configurado adicionalmente para, en la generación de
    n,k
    X
    la señal no correlacionada ( d ), sumar el primer y segundo canal de la señal (18) de conversión estereofónica de multicanal a estéreo y decorrelacionar la suma para obtener la señal (62) no correlacionada.
  3. 3.
    Aparato según la reivindicación 1 o 2, adicionalmente configurado para: estimar (80) un valor de coherencia entre canales binaural actual de la señal (54) de salida binaural preliminar; determinar (82) un valor de coherencia entre canales binaural con especificidad de objetivo; y conformar (84) una proporción de mezcla determinante a cual grado la señal de salida binaural (24) es bajo la influencia de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo como procesado por el cálculo (47) de la señal (54) de salida binaural preliminar y los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo como procesado por la generación (50) de una señal no correlacionada y el cálculo (52) de la señal (64) de salida binaural correctiva, respectivamente, basada en el valor de coherencia entre canales binaural actual y el valor de coherencia entre canales binaural con especificidad de objetivo.
  4. 4.
    Aparato según la reivindicación 3, en donde el aparato está configurado adicionalmente para, en la configuración de la proporción de mezcla, determinar la proporción de mezcla determinando la primera prescripción de renderización (Gl, m) y la segunda prescripción de renderización (P2l, m) basado en el valor de coherencia entre canales binaural actual y el valor de coherencia entre canales binaural con especificidad de objetivo.
  5. 5.
    Aparato según la reivindicación 3 o 4, en donde el aparato está configurado adicionalmente para, al determinar el valor de coherencia entre canales binaural con especificidad de objetivo, llevar a cabo la determinación basada en componentes de una matriz de covariancia con especificidad de objetivo F = AE A*, con “*” denotando transpuesto conjugado, A siendo una matriz de renderización binaural con especificidad de objetivo que relaciona las señales de audio con los primeros y segundos canales de la señal de salida binaural, respectivamente, y estando exclusivamente determinada por la información de renderización y los parámetros HRTF, y E siendo una matriz que es exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto.
  6. 6.
    Aparato según la reivindicación 5, en donde el aparato está configurado adicionalmente para, al computar la señal
    (54) de salida binaural preliminar, llevar a cabo el cálculo de modo que:
    Xˆ1 = G ⋅ X
    en donde X es un vector 2x1 cuyos componentes corresponden a los primeros y segundos canales de la señal (18)
    de conversión estereofónica de multicanal a estéreo, 1 es un vector 2x1 cuyos componentes corresponden a los
    primeros y segundos canales de la señal (54) de salida binaural preliminar, G es una primera matriz de renderización que representa la primera prescripción de renderización y que tiene un tamaño de 2x2 con:
    1 φ12 φ2
    P cos (β+ α)exp (j ) P cos (β + α)exp (j )
    imagen12 2
    φ2
    (
    ⎛ 
    )
    ⎞ ⎟⎠
    G
    =
    )
    L L
    (β − α)
    (β −α)
    1
    φ
    2 2
    P
    j
    P
    j
    cos exp cos exp
    2 2
    R R
    imagen2
    5
    arg ( fx ) Si aplica una condición
    12
    φx =
    ⎧⎨
    En caso contrario
    0
    10
    xx x
    en donde f11 , f12 y f22 son coeficientes de matrices de covariancia con especificidad de objetivo Fx del tamaño 2x2 con: Fx= A Ex A*,
    xx
    dd
    x ij
    eij = eij ( 12 )( 12 ).
    d +dd +d
    ii ii
    en donde: son coeficientes de la matriz de NxN Ex, N siendo la cantidad de señales de
    dx
    15 audio, eij son coeficientes de la matriz E siendo de tamaño NxN, y i son exclusivamente determinados por la
    di 1
    información de conversión de multicanal a estéreo, donde indica el grado al cual la señal de audio i ha sido
    di 2
    mezclada dentro del primer canal de la señal (18) de conversión estereofónica de multicanal a estéreo y define hasta qué punto la señal de audio i ha sido mezclada dentro del segundo canal de la señal de salida estéreo (18),
    Vx *
    x x x
    Vx = DE (D ) +ε d
    en dondees un escalar con y Dx es una matriz 1xN cuyos coeficientes son i ,
    20 en donde el aparato está configurado adicionalmente para, al computar una señal de salida binaural correctiva (64), llevar a cabo el cálculo de modo que:
    ˆ
    X = P ⋅ X
    22 d
    en donde Xd es la señal no correlacionada, 2 es un vector 2x1 cuyos componentes corresponden a primeros y segundos canales de la señal (64) de salida binaural correctiva, y P2 es una segunda matriz de renderización que
    25 representa la segunda prescripción de renderización y que tiene un tamaño 2x2 con:
    arg (c )
    12
    P sin (β +α)exp (j )
    L ( 2
    P2
    =
    (β −α
    )
     ⎟⎠
    j arg (c ))
    12
    2
    PR sin exp
     ⎜
    en donde PL y PR de ganancias se definen como:
    11
    PL imagen3cPR
    =
    imagen4
    =
    ,
    V
    en donde c11 y c22 son coeficientes de una matriz 2x2 C de covariancia de la señal (54) de salida binaural preliminar 30 con:
    ~ *~*
    C = GDED G V = W EW * +ε
    en donde V es un escalar con , W es una matriz de conversión monoaural de multicanal a
    1
    x D ~
    d D =( ) G
    estéreo del tamaño 1xN cuyos coeficientes son exclusivamente determinados por: i D2 y
    )
    1 φ1 l,m,2 φ2
    P exp (j ) P exp (j
    L 2 L 2
    ⎛⎜
    ~
    ,
    Glm =
    1 φ12 φ2
    P exp (− j ) P exp (− j )
    R 2 R 2
    ⎞⎟⎟
    ,es
    35 en donde el aparato está configurado adicionalmente para, al estimar el valor de coherencia entre canales binaural actual, determinar el valor de coherencia entre canales binaural actual como:
    ⎛ 
    ⎞ 
    c
    12
    ρ min
    ,1
    =
    C
    imagen5
    c
    22
    10
    15
    20
    25
    30
    35
    40
    45
    en donde el aparato está configurado adicionalmente para, al determinar el valor de coherencia entre canales binaural con especificidad de objetivo, determinar el valor de coherencia entre canales binaural con especificidad de objetivo como:
    f
    12
    ρ= min ,1⎟
    T ⎜
    imagen6f fl
    11 22
     ,y en donde el aparato está configurado adicionalmente para, en la configuración de la proporción de mezcla, determinar los ángulos de los rotadores α y β según:
    1
    α= (arccos (ρ )− arccos (ρ )),
    2 TC
     PR − PL ⎞
    β= arctan ⎜⎜tan ( ) α ⎟⎟
    P + P
     LR 
    , con e denotando una constante pequeña para evitar divisiones por cero, respectivamente.
  7. 7. Aparato según la reivindicación 1, donde el aparato está configurado adicionalmente para, al computar la señal
    (54) de salida binaural preliminar, llevar a cabo el cálculo de modo que:
    ˆ
    X1 = G ⋅ X
    en donde X es un vector 2x1 cuyos componentes corresponden a los primeros y segundos canales de la señal (18)
    ˆ
    de conversión estereofónica de multicanal a estéreo, X1 es un vector 2x1 cuyos componentes corresponden a los primeros y segundos canales de la señal (54) de salida binaural preliminar, G es una primera matriz de renderización que representa la primera prescripción de renderización y que tiene un tamaño de 2x2 con:
    ** −1
    G = AED (DED ),
    en donde E es una matriz siendo exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto;
    ij
    D es una matriz 2xN cuyos coeficientes d están exclusivamente determinados por la información de conversión
    d1 j
    de multicanal a estéreo, en donde indica el grado al cual la señal de audio j se ha mezclado dentro del primer
    d2 j
    canal de la señal (18) de conversión estereofónica de multicanal a estéreo y define hasta qué punto la señal de audio j se ha mezclado dentro del segundo canal de la señal de salida estéreo (18); A es una matriz de renderización binaural con especificidad de objetivo relación de las señales de audio a los primeros y segundos canales de la señal de salida binaural, respectivamente, y es exclusivamente determinada por la información de renderización y los parámetros HRTF,
    en donde el aparato está configurado adicionalmente para, al computar una señal de salida binaural correctiva (64), llevar a cabo el cálculo de modo que:
    Xˆ 2 = P ⋅ Xd
    ˆ
    X
    en donde Xd es la señal no correlacionada, 2 es un vector 2x1 cuyos componentes corresponden a primeros y segundos canales de la señal (64) de salida binaural correctiva, y P es una segunda matriz de renderización que representa la segunda prescripción de renderización y que tiene un tamaño 2x2 y se determina de modo que: PPS *
    **
    ΔR = AEA − G DED G * G
    = ΔR , con 00 con 0 = G .
  8. 8. Aparato según la reivindicación 1, en donde el aparato está configurado adicionalmente para, al calcular la señal
    (54) de salida binaural preliminar, llevar a cabo el cálculo de modo que:
    ˆ
    X1 = G ⋅ X
    en donde X es un vector 2x1 cuyos componentes corresponden a los primeros y segundos canales de la señal (18)
    ˆ
    X
    de conversión estereofónica de multicanal a estéreo, 1 es un vector 2x1 cuyos componentes corresponden a los primeros y segundos canales de la señal (54) de salida binaural preliminar, G es una primera matriz de renderización que representa la primera prescripción de renderización y que tiene un tamaño de 2x2 con:
    G = (G0DED*G0 *)-1 (G0 DED*G0 * AEA* G0 DED*G0 *) 1/2 (G0 DED*G0 *)-1 G0 con G0= AED* (DED *)-1 en donde E es una matriz que es exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto;
    5
    10
    15
    20
    25
    30
    35
    40
    45
    ij
    D es una matriz 2xN cuyos coeficientes d son exclusivamente determinados por la información de conversión de
    d1 j
    multicanal a estéreo, en donde indica el grado al cual la señal de audio j se ha mezclado dentro del primer canal
    d2 j
    de la señal (18) de conversión estereofónica de multicanal a estéreo y define hasta qué punto la señal de audio j se ha mezclado dentro del segundo canal de la señal de salida estéreo (18); A es una matriz de renderización binaural con especificidad de objetivo relación de las señales de audio a los primeros y segundos canales de la señal de salida binaural, respectivamente, y es exclusivamente determinado por la información de renderización y los parámetros HRTF, en donde el aparato está configurado adicionalmente para, al computar una señal de salida binaural correctiva (64), lleve a cabo el cálculo de modo que:
    Xˆ 2 = P ⋅ Xd
    ˆ
    X
    en donde Xd es la señal no correlacionada, 2 es un vector 2x1 cuyos componentes corresponden a primeros y segundos canales de la señal (64) de salida binaural correctiva, y P es una segunda matriz de renderización que representa la segunda prescripción de renderización y que tiene un tamaño 2x2 y se determina el que PPS * = (AEA* -GDED*G*) / V con V que es un escalar.
  9. 9.
    Aparato según cualquiera de las reivindicaciones anteriores, en donde la información de conversión de multicanal a estéreo (DMG, DCLD) es dependiente del tiempo, y la información sobre el nivel de objeto (ANTERIOR) y la información de correlación cruzada entre objetos (IOC) es dependiente de tiempo y frecuencia.
  10. 10.
    Método para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24), la señal de audio multicanal (21) que comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (141-14N) se convierte de multicanal a estéreo, e información conexa
    (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) indicando, para cada señal de audio, hasta qué punto la respectiva señal de audio se ha mezclado dentro de un primer canal (L0) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (IOC) que describe las semejanzas entre pares de señales de audio de la pluralidad de señales de audio, en donde el método comprende: computar, basado en una primera prescripción de renderización (Gl, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) de salida binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; generar, a partir de la señal (18) de conversión estereofónica de multicanal a estéreo, una señal no correlacionada
    n,kXd
    ( ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); computar, según una segunda prescripción de renderización (P2l, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) de salida binaural correctiva de la señal (62) no correlacionada; y mezclar la señal (54) de salida binaural preliminar con la señal (64) de salida binaural correctiva de obtener la señal de salida binaural (24).
  11. 11. Programa de computadora que tiene instrucciones para llevar a cabo, cuando se ejecuta en una computadora, el método según la reivindicación 10.
ES09778738.6T 2008-10-07 2009-09-25 Renderización binaural de una señal de audio multicanal Active ES2532152T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10330308P 2008-10-07 2008-10-07
US103303P 2008-10-07
EP09006598 2009-05-15
EP09006598A EP2175670A1 (en) 2008-10-07 2009-05-15 Binaural rendering of a multi-channel audio signal
PCT/EP2009/006955 WO2010040456A1 (en) 2008-10-07 2009-09-25 Binaural rendering of a multi-channel audio signal

Publications (1)

Publication Number Publication Date
ES2532152T3 true ES2532152T3 (es) 2015-03-24

Family

ID=41165167

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09778738.6T Active ES2532152T3 (es) 2008-10-07 2009-09-25 Renderización binaural de una señal de audio multicanal

Country Status (16)

Country Link
US (1) US8325929B2 (es)
EP (2) EP2175670A1 (es)
JP (1) JP5255702B2 (es)
KR (1) KR101264515B1 (es)
CN (1) CN102187691B (es)
AU (1) AU2009301467B2 (es)
BR (1) BRPI0914055B1 (es)
CA (1) CA2739651C (es)
ES (1) ES2532152T3 (es)
HK (1) HK1159393A1 (es)
MX (1) MX2011003742A (es)
MY (1) MY152056A (es)
PL (1) PL2335428T3 (es)
RU (1) RU2512124C2 (es)
TW (1) TWI424756B (es)
WO (1) WO2010040456A1 (es)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
WO2011119401A2 (en) 2010-03-23 2011-09-29 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN102907120B (zh) * 2010-06-02 2016-05-25 皇家飞利浦电子股份有限公司 用于声音处理的系统和方法
UA107771C2 (en) 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
CN102404610B (zh) * 2011-12-30 2014-06-18 百视通网络电视技术发展有限责任公司 视频点播服务的实现方法及系统
KR20130093798A (ko) 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
WO2013103256A1 (ko) 2012-01-05 2013-07-11 삼성전자 주식회사 다채널 음향 신호의 정위 방법 및 장치
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
CA2880028C (en) * 2012-08-03 2019-04-30 Thorsten Kastner Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
KR101676634B1 (ko) 2012-08-31 2016-11-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 오브젝트―기반 오디오를 위한 반사된 사운드 렌더링
EP2717261A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2922313B1 (en) * 2012-11-16 2019-10-09 Yamaha Corporation Audio signal processing device and audio signal processing system
MY172402A (en) * 2012-12-04 2019-11-23 Samsung Electronics Co Ltd Audio providing apparatus and audio providing method
US9264838B2 (en) 2012-12-27 2016-02-16 Dts, Inc. System and method for variable decorrelation of audio signals
US9860663B2 (en) 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
EP2757559A1 (en) 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN105075294B (zh) * 2013-04-30 2018-03-09 华为技术有限公司 音频信号处理装置
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
BR112015028409B1 (pt) * 2013-05-16 2022-05-31 Koninklijke Philips N.V. Aparelho de áudio e método de processamento de áudio
US10582330B2 (en) * 2013-05-16 2020-03-03 Koninklijke Philips N.V. Audio processing apparatus and method therefor
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
KR101829822B1 (ko) * 2013-07-22 2018-03-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
CN117037811A (zh) 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
CN105706468B (zh) 2013-09-17 2017-08-11 韦勒斯标准与技术协会公司 用于音频信号处理的方法和设备
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
WO2015049332A1 (de) * 2013-10-02 2015-04-09 Stormingswiss Gmbh Ableitung von multikanalsignalen aus zwei oder mehreren grundsignalen
BR112016008426B1 (pt) 2013-10-21 2022-09-27 Dolby International Ab Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador
JP6479786B2 (ja) 2013-10-21 2019-03-06 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
KR101804744B1 (ko) 2013-10-22 2017-12-06 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
CN109040946B (zh) 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
EP4246513A3 (en) 2013-12-23 2023-12-13 Wilus Institute of Standards and Technology Inc. Audio signal processing method and parameterization device for same
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN107750042B (zh) * 2014-01-03 2019-12-13 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
CN106105269B (zh) * 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
WO2015152665A1 (ko) 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2015152666A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 Hoa 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치
CN105338446B (zh) * 2014-07-04 2019-03-12 南宁富桂精密工业有限公司 音频声道控制电路
WO2016009863A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 サーバ装置、およびサーバ装置の情報処理方法、並びにプログラム
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
JP6463955B2 (ja) * 2014-11-26 2019-02-06 日本放送協会 三次元音響再生装置及びプログラム
EP3869825A1 (en) * 2015-06-17 2021-08-25 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
CN114005454A (zh) 2015-06-17 2022-02-01 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
US9860666B2 (en) 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
JP6977030B2 (ja) 2016-10-28 2021-12-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
JP7038725B2 (ja) 2017-02-10 2022-03-18 ガウディオ・ラボ・インコーポレイテッド オーディオ信号処理方法及び装置
CN107205207B (zh) * 2017-05-17 2019-01-29 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
US11929091B2 (en) 2018-04-27 2024-03-12 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
WO2019209930A1 (en) 2018-04-27 2019-10-31 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
CN113115175B (zh) * 2018-09-25 2022-05-10 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN110049423A (zh) * 2019-04-22 2019-07-23 福州瑞芯微电子股份有限公司 一种利用广义互相关和能量谱检测麦克风的方法和系统
EP4236378A3 (en) 2019-05-03 2023-09-13 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
US20230081104A1 (en) * 2021-09-14 2023-03-16 Sound Particles S.A. System and method for interpolating a head-related transfer function

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
ES2426917T3 (es) * 2004-04-05 2013-10-25 Koninklijke Philips N.V. Aparato codificador, aparato decodificador, sus métodos y sistema de audio asociado
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US20060247918A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Systems and methods for 3D audio programming and processing
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR100619082B1 (ko) * 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
BRPI0615899B1 (pt) * 2005-09-13 2019-07-09 Koninklijke Philips N.V. Unidade decodificadora espacial, dispositivo decodificador espacial, sistema de áudio, dispositivo de consumidor, e método para produzir um par de canais de saída binaurais
JP2007104601A (ja) * 2005-10-07 2007-04-19 Matsushita Electric Ind Co Ltd マルチチャンネル符号化における頭部伝達関数をサポートするための装置
CN101433099A (zh) * 2006-01-05 2009-05-13 艾利森电话股份有限公司 多声道环绕声的个性化解码
ATE476732T1 (de) * 2006-01-09 2010-08-15 Nokia Corp Steuerung der dekodierung binauraler audiosignale
WO2007080225A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
TWI469133B (zh) * 2006-01-19 2015-01-11 Lg Electronics Inc 媒體訊號處理方法及裝置
JP5147727B2 (ja) * 2006-01-19 2013-02-20 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置
ATE456261T1 (de) * 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
WO2009046909A1 (en) * 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal

Also Published As

Publication number Publication date
CN102187691B (zh) 2014-04-30
BRPI0914055A2 (pt) 2015-11-03
EP2335428A1 (en) 2011-06-22
HK1159393A1 (en) 2012-07-27
CA2739651C (en) 2015-03-24
RU2512124C2 (ru) 2014-04-10
WO2010040456A1 (en) 2010-04-15
TW201036464A (en) 2010-10-01
JP2012505575A (ja) 2012-03-01
AU2009301467A1 (en) 2010-04-15
CN102187691A (zh) 2011-09-14
EP2175670A1 (en) 2010-04-14
RU2011117698A (ru) 2012-11-10
US20110264456A1 (en) 2011-10-27
KR20110082553A (ko) 2011-07-19
JP5255702B2 (ja) 2013-08-07
MY152056A (en) 2014-08-15
MX2011003742A (es) 2011-06-09
BRPI0914055B1 (pt) 2021-02-02
EP2335428B1 (en) 2015-01-14
US8325929B2 (en) 2012-12-04
KR101264515B1 (ko) 2013-05-14
CA2739651A1 (en) 2010-04-25
TWI424756B (zh) 2014-01-21
PL2335428T3 (pl) 2015-08-31
AU2009301467B2 (en) 2013-08-01

Similar Documents

Publication Publication Date Title
ES2532152T3 (es) Renderización binaural de una señal de audio multicanal
JP4603037B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
EP2535892B1 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
TWI313857B (en) Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
TW201142825A (en) Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
KR20140128564A (ko) 음상 정위를 위한 오디오 시스템 및 방법
ES2941268T3 (es) Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa
Trevino et al. Enhancing stereo signals with high-order Ambisonics spatial information