ES2729308T3

ES2729308T3 - Aparato y procedimiento para la correspondencia de un primer y un segundo canal de entrada con al menos un canal de salida

Info

Publication number: ES2729308T3
Application number: ES17184927T
Authority: ES
Inventors: Jürgen Herre; Fabian Küch; Michael Kratschmer; Achim Kuntz; Christof Faller
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2019-10-31
Anticipated expiration: 2034-07-15
Also published as: CA2968646C; EP3518563A3; ZA201601013B; WO2015010962A3; PT3258710T; AU2014295309A1; ES2688387T3; BR112016000990B1; US11272309B2; EP2830335A3; CA2968646A1; US9936327B2; CN107040861A; CN105556992B; US10798512B2; CN105556991B; US20200396557A1; PT3133840T; JP6227138B2; MX355273B

Abstract

Un aparato (10; 30; 50; 60) para la correspondencia de un primer canal de entrada de altavoz (12) y un segundo canal de entrada de altavoz (14) de una configuración de canales de entrada de altavoz con canales de salida de altavoz (16, 42, 44) de una configuración de canales de salida de altavoz, en el que cada canal de entrada de altavoz y cada canal de salida de altavoz tiene una dirección con respecto a una posición central del oyente (P), en el que los canales de entrada de altavoz primero y segundo (12, 14) tienen diferentes ángulos de elevación con respecto a un plano horizontal del oyente (300), en el que el aparato está caracterizado porque está configurado para: la puesta en correspondencia del primer canal de entrada de altavoz (12) con un primer canal de salida de altavoz (16) de la configuración de canales de salida de altavoz; y pese a que la desviación del ángulo azimutal entre una dirección del segundo canal de entrada de altavoz (14) y una dirección del primer canal de salida de altavoz (16) es menor que la desviación del ángulo azimutal entre una dirección del segundo canal de entrada de altavoz (14) y un segundo canal de salida de altavoz (42) y/o es menor que la desviación del ángulo azimutal entre la dirección del segundo canal de entrada de altavoz (14) y la dirección de un tercer canal de salida de altavoz (44), la puesta en correspondencia del segundo canal de entrada de altavoz (14) con los canales de salida de altavoz segundo y tercero (42, 44) mediante ajuste panorámico (52, 62) entre los canales de salida de altavoz segundo y tercero (42, 44) para generar una fuente fantasma en la posición del altavoz asociado con el primer canal de salida de altavoz.

Description

DESCRIPCIÓN

Aparato y procedimiento para la correspondencia de un primer y un segundo canal de entrada con al menos un canal de salida

[0001] La presente solicitud se refiere a un aparato y un procedimiento para la correspondencia de un primer y un segundo canal de entrada con al menos un canal de salida y, en particular, a un aparato y un procedimiento adecuados para su uso en una conversión de formato entre diferentes configuraciones de canales de altavoz.

[0002] Las herramientas de codificación de audio espacial son muy conocidas en la técnica y han sido normalizadas, por ejemplo, en la norma MPEG-ambiente. La codificación de audio espacial se inicia con una pluralidad de entradas originales, por ejemplo, cinco o siete canales de entrada, que se identifican por su ubicación en una configuración de reproducción, por ejemplo, como un canal izquierdo, un canal central, un canal derecho, un canal ambiente izquierdo, un canal ambiente derecho y un canal de intensificación de efectos de baja frecuencia (LFE). Un codificador de audio espacial puede deducir uno o más canales de submezcla de los canales originales y, además, puede deducir datos paramétricos relacionados con indicios espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canales, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Dichos uno o más canales de submezcla se transmiten junto con la información lateral paramétrica que indica los indicios espaciales a un decodificador de audio espacial para decodificar los canales de submezcla y los datos paramétricos asociados con el fin de obtener, en última instancia, canales de salida que son una versión aproximada de los canales de entrada originales. La ubicación de los canales en la configuración de salida puede ser fija, por ejemplo, un formato 5.1, un formato 7.1, etc.

[0003] Además, las herramientas de codificación de audio espacial son bien conocidas en la técnica y han sido normalizadas, por ejemplo, en la norma MPEG SAOC (SAOC = codificación de objetos de audio espacial). A diferencia de la codificación de audio espacial que parte de los canales originales, la codificación de objetos de audio espacial parte de objetos de audio que no están dedicados automáticamente a una determinada configuración de presentación y reproducción. Por el contrario, la ubicación de los objetos de audio en la escena de reproducción es flexible y puede ser ajustada por un usuario, por ejemplo, introduciendo cierta información de presentación en un decodificador para codificación de objetos de audio espacial. De forma adicional o alternativa, se puede transmitir información de presentación en forma de información lateral adicional o metadatos; la información de presentación puede incluir información sobre en la posición de la configuración de reproducción en que se deben colocar ciertos objetos de audio (por ejemplo, en función del tiempo). Para obtener una determinada compresión de audio, se codifica un número de objetos de audio usando un codificador SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte mediante la submezcla de los objetos según cierta información de submezcla. Además, el codificador SAOC calcula información lateral paramétrica que representa indicios entre objetos tales como diferencias de nivel de los objetos (OLD), valores de coherencia de los objetos, etc. En lo que respecta a SAC (SAC = Codificación de audio espacial), se calculan los datos paramétricos entre objetos con respecto a teselas individuales en tiempo/frecuencia. Para una trama determinada (por ejemplo, 1.024 o 2.048 muestras) de la señal de audio se tiene en cuenta una pluralidad de bandas de frecuencia (por ejemplo, 24, 32 o 64 bandas) de manera que se suministran datos paramétricos por cada trama y cada banda de frecuencia. Por ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama está subdividida en 32 bandas de frecuencia, el número de teselas de tiempo/frecuencia es 640.

[0004] Un formato de reproducción deseado, es decir, una configuración de los canales de salida (configuración de altavoz de salida), puede diferir de una configuración de los canales de entrada, en el que el número de canales de salida es generalmente diferente del número de canales de entrada. Por consiguiente, puede ser necesaria la conversión de formato para la correspondencia de los canales de entrada de la configuración de los canales de entrada con los canales de salida de la configuración de los canales de salida.

[0005] El objeto subyacente de la invención es proporcionar un aparato y un procedimiento que permitan una reproducción mejorada del sonido, en particular en el caso de una conversión de formato entre diferentes configuraciones de canales de altavoz.

[0006] Este objeto se consigue mediante un aparato según la reivindicación 1, un procedimiento según la reivindicación 3 y un programa informático según la reivindicación 4.

[0007] Las realizaciones de la invención proporcionan un aparato que comprende el conjunto de características definido en las reivindicaciones 1 y 2.

[0008] Una realización de la invención proporciona un procedimiento que comprende la secuencia de etapas definida en la reivindicación 3.

[0009] Las realizaciones de la invención se basan en el hallazgo de que se puede obtener una reproducción de audio mejorada aun en el caso de un proceso de submezcla de un número de canales de entrada con un número más pequeño de canales de salida si se usa una estrategia destinada a intentar conservar la diversidad espacial de al menos dos canales de entrada que se ponen en correspondencia con al menos un canal de salida. Esto se consigue mediante el procesamiento de uno de los canales de entrada puestos en correspondencia con el mismo canal de salida mediante la aplicación de al menos uno de entre un filtro de ecualización y un filtro de decorrelación. En las realizaciones de la invención, esto se consigue generando una fuente fantasma para uno de los canales de entrada usando dos canales de salida, al menos uno de los cuales tiene una desviación angular con respecto al canal de entrada que es mayor que la desviación angular del canal de entrada con respecto a otro canal de salida.

[0010] Se aplica un filtro de ecualización al segundo canal de entrada y está configurado para incrementar la ganancia de una porción espectral del segundo canal de entrada, conocida por transmitir al oyente la impresión de que el sonido proviene de una posición correspondiente a la posición del segundo canal de entrada. Un ángulo de elevación del segundo canal de entrada puede ser mayor que un ángulo de elevación de dichos uno o más canales de salida con los cuales se pone en correspondencia el canal de entrada. Por ejemplo, un altavoz asociado al segundo canal de entrada puede estar en una posición por encima de un plano horizontal del oyente, en tanto que los altavoces asociados a dichos uno o más canales de salida pueden estar en una posición en el plano horizontal del oyente. El filtro de ecualización puede estar configurado para incrementar la ganancia de una porción espectral del segundo canal en un intervalo de frecuencia de entre 7 kHz y 10 kHz. Procesando de esta manera la segunda señal de entrada, se puede transmitir al oyente la impresión de que el sonido proviene de una posición elevada, incluso si en realidad no procede de una posición elevada.

[0011] El segundo canal de entrada se procesa mediante la aplicación de un filtro de ecualización configurado para procesar el segundo canal de entrada con el fin de compensar las diferencias de timbre causadas por las diferentes posiciones del segundo canal de entrada y dicho al menos un canal de salida con el cual se pone en correspondencia con el segundo canal de entrada. Por consiguiente, el timbre del segundo canal de entrada, que es reproducido por un altavoz en una posición errónea puede ser manipulado de manera que un usuario tenga la impresión de que el sonido proviene de otra posición más cercana a la posición original, es decir, la posición del segundo canal de entrada.

[0012] Se aplica un filtro de decorrelación al segundo canal de entrada. La aplicación de un filtro de decorrelación al segundo canal de entrada también puede transmitir la impresión al oyente de que las señales de sonido reproducidas por el primer canal de salida provienen de diferentes canales de entrada situados en diferentes posiciones en la configuración de canales de entrada. Por ejemplo, el filtro de decorrelación puede estar configurado de manera que introduzca retardos y/o fases aleatorizadas dependientes de la frecuencia en el segundo canal de entrada. El filtro de decorrelación puede ser un filtro de reverberación configurado para introducir porciones de señal con reverberación en el segundo canal de entrada, de manera que un usuario pueda tener la impresión de que las señales de sonido reproducidas a través del primer canal de salida provienen de diferentes posiciones. El filtro de decorrelación puede estar configurado para la convolución del segundo canal de entrada con una secuencia de ruido en caída exponencial con el fin de simular reflexiones difusas en la segunda señal de entrada.

[0013] Los coeficientes del filtro de ecualización y/o el filtro de decorrelación se determinan basándose en una respuesta binaural al impulso (BRIR) medida de un recinto de escucha específico o se establecen basándose en el conocimiento empírico sobre la acústica del recinto (que también puede tener en cuenta una sala de escucha específica). Por consiguiente, el procesamiento respectivo para tener en cuenta la diversidad espacial de los canales de entrada puede ser adaptado a la situación específica, como por ejemplo, la sala de escucha específica en la cual se debe reproducir la señal por medio de la configuración de los canales de salida.

[0014] A continuación se explican las realizaciones de la invención con referencia a las figuras adjuntas, en las que:

la fig. 1 muestra una visión general de un codificador de audio 3D de un sistema de audio 3D;

la fig. 2 muestra una visión general de un decodificador de audio 3D de un sistema de audio 3D;

la fig. 3 muestra un ejemplo para implementar un convertidor de formato que puede ser implementado en el decodificador de audio 3^dde la fig. 2;

la fig. 4 muestra una vista superior esquemática de una configuración de altavoz;

la fig. 5 muestra una vista posterior esquemática de otra configuración de altavoz;

las figs. 6a y 6b muestran vistas esquemáticas de un aparato para la correspondencia de los canales de entrada primero y segundo con un canal de salida;

las figs. 7a y 7b muestran vistas esquemáticas de un aparato para la correspondencia de los canales de entrada primero y segundo con varios canales de salida;

la fig. 8 muestra una vista esquemática de un aparato para la correspondencia de los canales primero y segundo con un canal de salida;

la fig. 9 muestra una vista esquemática de un aparato para la correspondencia de los canales de entrada primero y segundo con diferentes canales de salida;

la fig. 10 muestra un diagrama de bloques de una unidad de procesamiento de señales para la correspondencia de canales de entrada de una configuración de canales de entrada con canales de salida de una configuración de canales de salida;

la fig. 11 muestra una unidad de procesamiento de señales; y

la fig. 12 es un diagrama que muestra las denominadas bandas de Blauert.

[0015] Antes de describir en detalle las realizaciones de la estrategia de la invención, se presenta una visión general de un sistema de códec de audio 3D en el cual se puede implementar la estrategia de la invención.

[0016] Las figs. 1 y 2 muestran los bloques algorítmicos de un sistema de audio 3D según las realizaciones. Más específicamente, la fig. 1 muestra una visión general de un codificador de audio 3D 100. El codificador de audio 100 recibe en un circuito de pre-presentación/mezcla 102, que se puede incluir opcionalmente, señales de entrada, más específicamente una pluralidad de canales de entrada que envían al codificador de audio 100 una pluralidad de señales de canales 104, una pluralidad de señales de objeto 106 y sus correspondientes metadatos de objeto 108. Las señales de objeto 106 procesadas por el pre-presentador/mezclador 102 (véanse las señales 110) pueden ser enviadas a un codificador SAOC 112 (SAOC = Codificación de objetos de audio espacial). El codificador SAOC 112 genera los canales de transporte de SAOC 114 proporcionados a las entradas de un codificador USAC 116 (USAC = Codificación Unificada de Voz y Audio). Además, la SAOC-SI de señal 118 (SAOC-SI = información lateral de SAOC) también es enviada a las entradas del codificador USAC 116. El codificador USAC 116 recibe a su vez señales de objeto 120 directamente del pre-presentador/mezclador, así como las señales de canales y señales de objeto pre presentadas 122. La información de metadatos de objeto 108 se aplica a un codificador de OAM 124 (OAM = metadatos de objeto) que proporciona la información comprimida de metadatos de objeto 126 al codificador USAC. El codificador USAC 116, sobre la base de las señales de entrada antes mencionadas, genera una señal de salida comprimida MP4, tal como se indica en 128.

[0017] La figs. 2 muestra una visión general de un decodificador de audio 3D 200 del sistema de audio 3D. La señal codificada 128 (MP4) generada por el codificador de audio 100 de la fig. 1 es recibida en el decodificador de audio 200, más específicamente en un decodificador de USAC 202. El decodificador USAC 202 decodifica la señal recibida 128 en las señales de canales 204, las señales de objeto pre-presentadas 206, las señales de objeto 208 y las señales de canales de transporte de SAOC 210. Asimismo, la información comprimida de metadatos de objeto 212 y la SAOC-SI de señal 214 es emitida por el decodificador USAC. Las señales de objeto 208 son enviadas a un presentador de objetos 216 que emite las señales de objeto presentadas 218. Las señales de canales de transporte de SAOC 210 son suministradas al decodificador SAOC 220 que emite las señales de objeto presentadas 222. La metainformación de objeto comprimida 212 es enviada a un decodificador OAM 224 que envía las señales de control respectivas al presentador de objetos 216 y al decodificador SAOC 220 para generar las señales de objeto presentadas 218 y las señales de objeto presentadas 222. El decodificador comprende además un mezclador 226 que recibe, tal como se muestra en la fig. 2, las señales de entrada 204, 206, 218 y 222 para emitir las señales de canales 228. Las señales de canales pueden ser enviadas directamente a un altavoz, por ejemplo, un altavoz de 32 canales, tal como se indica en 230. Alternativamente, las señales 228 pueden ser enviadas a un circuito de conversión de formato 232 que recibe, como entrada de control, una señal de distribución de la reproducción que indica la forma en que se deben convertir las señales de canales 228. En la realización descrita en la fig. 2, se supone que la conversión se debe realizar de tal manera que se pueda enviar las señales a un sistema de altavoz 5.1 tal como se indica en 234. Asimismo, las señales de canal 228 son enviadas a un presentador binaural 236 que genera dos señales de salida, por ejemplo, para un auricular, tal como se indica en 238.

[0018] El sistema de codificación/decodificación ilustrado en las figs. 1 y 2 se puede basar en el códec MPEG-D USAC para la codificación de señales de canal y de objeto (véanse las señales 104 y 106). Para aumentar la eficiencia en la codificación de una gran cantidad de objetos, se puede emplear la tecnología MPEG SAOC. Tres tipos de presentadores pueden ejecutar las tareas de presentación de objetos a canales, presentación de canales a auriculares o presentación de canales a una configuración diferente de altavoz (véase la fig. 2, números de referencia 230, 234 y 238). Cuando las señales de objeto son explícitamente transmitidas o codificadas de forma paramétrica usando SAOC, la información de metadatos de objeto 108 correspondiente es comprimida (véase la señal 126) y multiplexada en el flujo de bits de audio 3D 128.

[0019] Las figs. 1 y 2 muestran los bloques algorítmicos correspondientes a la totalidad del sistema de audio 3^dque se describe a continuación con más detalle.

[0020] Se puede incluir opcionalmente el pre-presentador/mezclador 102 para convertir un canal más una escena de entrada de objeto en una escena de canal antes de la codificación. Funcionalmente, es idéntico al presentador/mezclador de objetos que se describe más adelante en detalle. La pre-presentación de objetos puede ser ventajosa para garantizar una entropía de señal determinista a la entrada del codificador que es básicamente independiente del número de señales de objeto activas simultáneamente. Con la pre-presentación de objetos, no es necesaria la transmisión de metadatos de objeto. Se presentan señales de objeto discretas a la distribución de canales que el codificador está configurado para usar. Los pesos de los objetos correspondientes a cada canal se obtienen de los metadatos de objeto (OAM) asociados.

[0021] El codificador USAC 116 es el códec de núcleo para las señales de altavoz-canales, señales de objeto discretas, señales de submezcla de objetos y señales pre-presentadas. Se basa en la tecnología MPEG-D USAC. Se encarga de la codificación de las señales enumeradas generando información de canales y objetos basada en la información geométrica y semántica de la asignación de canales de entrada y objetos. Esta información de correspondencia describe cómo se ponen en correspondencia los canales de entrada y objetos con elementos de canales de USAC, como elementos de pares de canales (CPE), elementos de canales individuales (SCE), efectos de baja frecuencia (LFE) y elementos de cuatro canales (QCE) y CPE, SCE y LFE, y la información correspondiente se transmite al decodificador. Todas las cargas útiles adicionales como los datos de SAOC 114, 118 o los metadatos de objeto 126 se tienen en cuenta en el control de tasa del codificador. La codificación de objetos es posible de maneras diferentes, dependiendo de los requisitos de tasa/distorsión y los requisitos de interactividad impuestos al presentador. Según las realizaciones, son posibles las siguientes variantes de codificación de objetos:

• Objetos pre-presentados: Las señales de objeto son pre-presentadas y mezcladas con las señales de canales 22.2 antes de la codificación. La cadena de codificación subsiguiente ve señales de canales 22.2.

• Formas de onda discretas de objetos: Los objetos son suministrados al codificador a modo de formas de onda monofónicas. El codificador usa elementos de canal individual (SCE) para transmitir los objetos además de las señales de canales. Los objetos decodificados son presentados y mezclados en el lado del receptor. Se transmite información comprimida de metadatos de objeto al receptor/presentador.

• Formas de onda paramétricas de objetos: Las propiedades de los objetos y su relación mutua se describen por medio de parámetros de SAOC. La submezcla de las señales de objeto se codifica con la USAC. La información paramétrica se transmite conjuntamente. El número de canales de submezcla se elige dependiendo del número de objetos y la tasa de datos en general. Se transmite información comprimida de metadatos de objeto al presentador de SAOC.

[0022] El codificador SAOC 112 y el decodificador SAOC 220 para señales de objeto se pueden basar en la tecnología MPEG SAOC. El sistema tiene capacidad para recrear, modificar y presentar un número de objetos de audio basados en un número más pequeño de canales transmitidos y datos paramétricos adicionales, tales como OLD, IOC (Coherencia Entre Objetos), DMG (Ganancias de Submezcla). Los datos paramétricos adicionales muestran una tasa de datos significativamente más baja que la necesaria para transmitir individualmente todos los objetos, lo que aporta gran eficiencia a la codificación. El codificador SAOC 112 toma como entrada las señales de objeto/canales como formas de onda monofónicas y emite como salida información paramétrica (que está incluida en el flujo de bits de audio 3D 128) y los canales de transporte de SAOC (que se codifican usando elementos de canal único y se transmiten). El decodificador SAOC 220 reconstruye las señales de objeto/canales procedentes de los canales de transporte de SAOC decodificados 210 y la información paramétrica 214, y genera la escena de audio de salida sobre la base del trazado de reproducción, la información de metadatos de objeto descomprimida y, opcionalmente, sobre la base de la información de interacción con el usuario.

[0023] El códec de metadatos de objeto (véanse el codificador de OAM 124 y el decodificador de OAM 224) se incluye para que, por cada objeto, los metadatos asociados que especifican la posición geométrica y el volumen de los objetos en el espacio 3D sean codificados de manera eficiente mediante la cuantificación de las propiedades de los objetos en tiempo y espacio. Los metadatos de objeto comprimidos cOAM 126 se transmiten al receptor 200 en forma de información lateral.

[0024] El presentador de objetos 216 usa los metadatos de objeto comprimidos para generar formas de onda de objetos según el formato de reproducción dado. Cada objeto es presentado a un determinado canal de salida 218 según sus metadatos. La salida de este bloque es el resultado de la suma de los resultados parciales. Si se decodifica tanto el contenido basado en los canales como los objetos discretos/paramétricos, las formas de onda basadas en los canales y las formas de onda de objetos presentados son mezcladas por el mezclador 226 antes de emitir las formas de onda obtenidas 228 o antes de suministrarlas a un módulo posprocesador como el módulo presentador binaural 236 o el módulo presentador de altavoz 232.

[0025] El módulo presentador binaural 236 produce una submezcla binaural del material de audio multicanal de tal manera que cada canal de entrada esté representado por una fuente de sonido virtual. El procesamiento se lleva a cabo trama por trama en el dominio de QMF (Banco de Filtros de Cuadratura en Espejo), y la binauralización se basa en respuestas a los impulsos binaurales del recinto medidas.

[0026] El presentador de altavoz 232 realiza la conversión entre la configuración de canales transmitida 228 y el formato de reproducción deseado. También se le puede denominar “convertidor de formato”. El convertidor de formato realiza las conversiones a números menores de canales de salida, es decir, crea submezclas.

[0027] En la fig. 3 se muestra una implementación posible de un convertidor de formato 232. El convertidor de formato 232, al que también se hace referencia como presentador de altavoz, convierte entre la configuración de canales transmisores y el formato de reproducción deseado mediante la correspondencia de los canales transmisores (entrada) de la configuración de canales de transmisión (entrada) con los canales (salida) del formato de reproducción deseado (configuración de canales de salida). El convertidor de formato 232 ejecuta en general las conversiones a un número más bajo de canales de salida, es decir, ejecuta un proceso de submezcla (DMX) 240. El dispositivo de submezcla 240, que opera preferentemente en el dominio QMF, recibe las señales de salida del mezclador 228 y emite las señales del altavoz 234. Se puede incluir un configurador 242, al que también se hace referencia como controlador, que recibe, como entrada de control, una señal 246 indicativa de la distribución de salida del mezclador (configuración de canales de entrada), es decir, la distribución de cuyos datos representados por la señal de salida del mezclador 228 se determina, y la señal 248 indicativa de la distribución de reproducción deseada (configuración de canales de salida). Basándose en esta información, el controlador 242 genera, preferentemente de manera automática, matrices de submezcla correspondientes a la combinación dada de formatos de entrada y salida y aplica estas matrices al dispositivo de submezcla 240. El convertidor de formato 232 permite las configuraciones estándar de altavoz, así como también configuraciones aleatorias con posiciones no estándar de altavoz.

[0028] Las realizaciones de la presente invención se refieren a la implementación del presentador de altavoz 232, es decir, con aparato y procedimientos para implementar parte de la funcionalidad del presentador de altavoz 232.

[0029] A continuación, se hace referencia a las figs. 4 y 5. La fig. 4 muestra una configuración de altavoces que representa un formato 5.1 que comprende seis altavoces que representan un canal izquierdo LC, un canal central CC, un canal derecho RC, un canal izquierdo de ambiente LSC, un canal derecho de ambiente LRC y un canal de intensificación de baja frecuencia LFC. La fig. 5 muestra otra configuración de altavoces que comprende altavoces que representan un canal izquierdo LC, un canal central CC, un canal derecho RC y un canal central elevado ECC.

[0030] En lo sucesivo, no se hace referencia al canal de intensificación de baja frecuencia dado que la posición exacta del altavoz (sub-bajo) asociado al canal de intensificación de baja frecuencia no es importante.

[0031] Los canales están dispuestos en direcciones específicas con respecto a una posición central del oyente P. La dirección de cada canal está definida por un ángulo azimutal a y un ángulo de elevación p, véase la fig. 5. El ángulo azimutal representa el ángulo del canal en un plano horizontal del oyente 300 y puede representar la dirección del canal respectivo con respecto a una dirección central anterior 302. Como se puede ver en la fig. 4, la dirección anterior central 302 se puede definir como la dirección supuesta de visualización de un oyente situado en la posición central del oyente P. Una dirección posterior central 304 comprende un ángulo azimutal de 180° con respecto a la dirección anterior central 300. Todos los ángulos azimutales a la izquierda de la dirección anterior central entre la dirección anterior central y la dirección posterior central están a la izquierda de la dirección anterior central y todos los ángulos azimutales a la derecha de la dirección anterior central entre la dirección anterior central y la dirección posterior central están a la derecha de la dirección anterior central. Los altavoces situados delante de una línea virtual 306, que es ortogonal a la dirección anterior central 302 y pasa por la posición central del oyente, son altavoces delanteros y los altavoces situados detrás de la línea virtual 306 son los altavoces traseros. En el formato 5.1, el ángulo azimutal a del canal LC está 30° a la izquierda, a de CC está a 0°, a de RC está 30° a la derecha, a de LSC está 110° a la izquierda y a de RSC está 110° a la derecha.

[0032] El ángulo de elevación p de un canal define el ángulo entre el plano horizontal del oyente 300 y la dirección de una línea de conexión virtual entre la posición central del oyente y el altavoz asociado al canal. En la configuración mostrada en la fig. 4, todos los altavoces están dispuestos dentro del plano horizontal del oyente 300 y, por lo tanto, todos los ángulos de elevación son iguales a cero. En la fig. 5, los ángulos de elevación p del canal ECC pueden ser de 30°. Un altavoz situado exactamente por encima de la posición central del oyente tendría un ángulo de elevación de 90°. Los altavoces dispuestos por debajo del plano horizontal del oyente 300 tienen ángulos de elevación negativos. En la fig. 5, LC tiene una dirección X1, CC tiene una dirección X2, RC tiene una dirección X3 y ECC tiene una dirección X4.

[0033] La posición de un canal específico en el espacio, es decir, la posición del altavoz asociado al canal específico, está dada por el ángulo azimutal, el ángulo de elevación y la distancia del altavoz desde la posición central del oyente. Cabe señalar que el término “posición de un altavoz” es descrito con frecuencia por los expertos en la materia para referirse al ángulo azimutal y al ángulo de elevación.

[0034] Por lo general, se realiza una conversión de formato entre diferentes configuraciones de canales de altavoz en forma de proceso de submezcla que pone en correspondencia un número de canales de entrada con un número de canales de salida, en el que el número de canales de salida es generalmente menor que el número de canales de entrada, y en la que las posiciones de los canales de salida pueden ser diferentes de las posiciones de los canales de entrada. Uno o más canales de entrada se pueden mezclar entre sí hacia el mismo canal de salida. Al mismo tiempo, uno o más canales de entrada pueden ser presentados a través de más de un canal de salida. Esta correspondencia de los canales de entrada con el canal de salida está determinada por lo general por una serie de coeficientes de submezcla, o alternativamente se formula en forma de matriz de submezcla. La elección de los coeficientes de submezcla afecta significativamente a la calidad del sonido de salida con submezcla que se puede obtener. Las elecciones inadecuadas pueden conducir a una mezcla desequilibrada o a una reproducción espacial deficiente de la escena de sonido de entrada.

[0035] Cada canal tiene asociada una señal de audio que debe ser reproducida por el altavoz asociado. La enseñanza de que se procesa un canal específico (como, por ejemplo, mediante la aplicación de un coeficiente, mediante la aplicación de un filtro de ecualización o mediante la aplicación de un filtro de decorrelación) significa que se procesa la correspondiente señal de audio asociada a este canal. En el contexto de la presente solicitud, el término “filtro de ecualización” debe comprender cualquier medio para aplicar una ecualización a la señal, de tal manera que se obtenga una ponderación dependiente de la frecuencia de porciones de la señal. Por ejemplo, un filtro de ecualización puede estar configurado para aplicar coeficientes de ganancia dependientes de la frecuencia a las bandas de frecuencia de la señal. En el contexto de la presente solicitud, el término “filtro de decorrelación” debe comprender cualquier medio para aplicar una decorrelación a la señal, como por ejemplo, introduciendo retardos dependientes de la frecuencia y/o fases aleatorizadas en la señal. Por ejemplo, un filtro de decorrelación puede estar configurado de manera que aplique coeficientes de retardo dependientes de la frecuencia a las bandas de frecuencia de la señal y/o aplique coeficientes de fase aleatorizados a la señal.

[0036] En las realizaciones de la invención, la correspondencia de un canal de entrada con uno o más canales de salida incluye la aplicación de al menos un coeficiente que se ha de aplicar al canal de entrada por cada canal de salida con el cual se pone en correspondencia el canal de entrada. Dicho al menos un coeficiente puede incluir un coeficiente de ganancia, es decir, un valor de ganancia, que se ha de aplicar a la señal de entrada asociada al canal de entrada, y/o un coeficiente de retardo, es decir, un valor de retardo que se ha de aplicar a la señal de entrada asociada al canal de entrada. En las realizaciones de la invención, la correspondencia puede incluir la aplicación de coeficientes selectivos de la frecuencia, es decir, coeficientes diferentes para diferentes bandas de frecuencia de los canales de entrada. En las realizaciones de la invención, la correspondencia de los canales de entrada con los canales de salida incluye generar una o más matrices de coeficientes con los coeficientes. Cada matriz define un coeficiente que se ha de aplicar a cada canal de entrada de la configuración de canales de entrada por cada canal de salida de la configuración de los canales de salida. En el caso de los canales de salida, con los cuales no se pone en correspondencia el canal de entrada, el coeficiente respectivo de la matriz de coeficientes ha de ser cero. En las realizaciones de la invención, se pueden generar matrices de coeficientes separadas para los coeficientes de ganancia y los coeficientes de retardo. En las realizaciones de la invención, se puede generar una matriz de coeficientes por cada banda de frecuencia en el caso en que los coeficientes sean selectivos de la frecuencia. En las realizaciones de la invención, la correspondencia puede incluir además la aplicación de coeficientes derivados a las señales de entrada asociadas a los canales de entrada.

[0037] Para obtener buenos coeficientes de submezcla, un experto (por ejemplo, un ingeniero de sonido) puede afinar los coeficientes a mano, teniendo en cuenta su conocimiento experto. Otra posibilidad consiste en deducir automáticamente los coeficientes de submezcla correspondientes a una combinación dada de configuraciones de entrada y salida tratando cada canal de entrada como fuentes de sonido virtual cuya posición en el espacio está dada por la posición en el espacio asociada al canal específico, es decir, la posición del altavoz asociado al canal de entrada específico. Cada fuente virtual puede ser reproducida por un algoritmo de ajuste panorámico genérico como el ajuste panorámico de la ley de tangentes en 2D o el ajuste panorámico vectorial basado en amplitud (VBAP) en 3D, véase V. Pulkki: “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of the Audio Engineering Society, vol. 45, pág. 456-466, 1997. Otra propuesta para la deducción matemática, es decir automática, de coeficientes de submezcla para una combinación dada de configuraciones de entrada y salida es la ofrecida por A. Ando: “Conversion of Multichannel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, n.° 6 , agosto de 2011.

[0038] En consecuencia, las técnicas de submezcla existentes se basan principalmente en tres estrategias para la deducción de coeficientes de submezcla. La primera estrategia es una correspondencia directa de los canales de entrada descartados con canales de salida en una posición azimutal igual o comparable. No se consideran los desplazamientos de elevación. Por ejemplo, una práctica común consiste en presentar los canales de altura directamente con los canales horizontales en una posición azimutal igual o comparable, si la capa de altura no está presente en la configuración de los canales de salida. Una segunda estrategia consiste en el uso de algoritmos de ajuste panorámico genérico, que trata los canales de entrada como fuentes virtuales de sonido y conserva la información de azimut mediante la introducción de fuentes fantasma en la posición de los canales de entrada desechados. No se consideran los desplazamientos de elevación. En los procedimientos de la técnica actual el ajuste panorámico se usa sólo si no existe ningún altavoz de salida disponible en la posición de salida deseada, por ejemplo, en el ángulo azimutal deseado. Una tercera estrategia consiste en la incorporación de conocimiento experto para la deducción de coeficientes de submezcla óptimos en el sentido empírico, artístico o psicoacústico. Se puede emplear una aplicación separada o combinada de diferentes estrategias. Las realizaciones de la invención proporcionan una solución técnica que permite mejorar u optimizar un proceso de submezcla de tal manera que se puedan obtener señales de salida con submezcla de mayor calidad que sin usar esta solución. En las realizaciones, la solución puede mejorar la calidad de la submezcla en los casos en que la diversidad espacial inherente a la configuración de los canales de entrada se perdería durante la submezcla sin aplicar la solución propuesta.

[0039] Para este fin, las realizaciones de la invención permiten conservar la diversidad espacial que es inherente a la configuración de canales de entrada y que no se conserva en la estrategia de submezcla (DMX) estricta. En las situaciones de submezcla en las que el número de canales acústicos es reducido, las realizaciones de la invención persiguen principalmente reducir la pérdida de diversidad y envoltura, que tiene lugar implícitamente cuando se pone en correspondencia un número mayor con un número menor de canales.

[0040] Los autores de la invención han reconocido que, dependiendo de la configuración específica, con frecuencia la diversidad espacial inherente y la envoltura espacial de una configuración de canales de entrada se reducen considerablemente o se pierden por completo en la configuración de los canales de salida. Más aún, si se reproducen simultáneamente eventos auditivos de varios oradores en la configuración de entrada, estos pueden ser más coherentes, condensados y focalizados en la configuración de salida. Esto puede llevar a una impresión espacial perceptualmente más exigente, que con frecuencia parece menos agradable que la configuración de canales de entrada. Las realizaciones de la invención persiguen conservar por primera vez la diversidad espacial en la configuración de los canales de salida. Las realizaciones de la invención persiguen conservar la ubicación percibida de un evento auditivo lo más cerca posible en comparación con el caso en que se usa la configuración original de altavoz de los canales de entrada.

[0041] En consecuencia, las realizaciones de la invención proporcionan una técnica específica para la correspondencia de un primer canal de entrada y un segundo canal de entrada, que están asociados a diferentes posiciones de altavoz de una configuración de canales de entrada y que por lo tanto comprenden una diversidad espacial, con al menos un canal de salida. En las realizaciones de la invención, los canales de entrada primero y segundo están en elevaciones diferentes con respecto a un plano horizontal del oyente. Por consiguiente, se pueden tener en cuenta los desplazamientos de elevación entre el primer canal de entrada y el segundo canal de entrada para mejorar la reproducción de sonido usando los altavoces de la configuración de los canales de salida.

[0042] En el contexto de la presente solicitud, la diversidad se puede describir de la siguiente manera. Los diferentes altavoces de una configuración de canales de entrada dan origen a diferentes canales acústicos desde los altavoces a los oídos, por ejemplo, los oídos del oyente en la posición P. Existe un número de trayectorias acústicas directas y un número de trayectorias acústicas indirectas, también conocidas como reflexiones o reverberación, que surgen de una excitación ambiental de escucha diversa y que añaden cambios adicionales de decorrelación y timbre a las señales percibidas desde los altavoces en diferentes posiciones. Los canales acústicos pueden ser completamente modelados por BRIR, que son característicos por cada recinto de escucha. La experiencia de escucha de una configuración de canales de entrada depende intensamente de una combinación característica de diferentes canales de entrada y diversos BRIR, que corresponden a las posiciones específicas de los altavoces. Por consiguiente, la diversidad y la envoltura surgen de diversas modificaciones de las señales, que son aplicadas de modo inherente a todas las señales de altavoz por el recinto de acústica.

[0043] A continuación se presenta una fundamentación razonada de la necesidad de estrategias de submezcla que conserven la diversidad espacial de una configuración de canales de entrada. Una configuración de canales de entrada puede usar más altavoces que una configuración de los canales de salida o puede usar al menos un altavoz que no esté presente en la configuración de altavoces de salida. Meramente con fines ilustrativos, una configuración de canales de entrada puede usar los altavoces LC, CC, RC, ECC tal como se muestra en la fig. 5, en tanto que una configuración de los canales de salida puede usar sólo los altavoces LC, CC y RC, es decir, no hace uso del altavoz ECC. Por consiguiente, la configuración de canales de entrada puede usar un número mayor de capas de reproducción que la configuración de canales de salida. Por ejemplo, la configuración de canales de entrada puede presentar tanto altavoces horizontales (LC, CC, RC) como de altura (ECC), en tanto que la configuración de salida puede incluir sólo altavoces horizontales (LC, CC, RC). De esa manera, el número de canales acústicos de altavoz a oídos se reduce con la configuración de los canales de salida en situaciones con submezcla. Específicamente, se ven afectadas sobre todo las submezclas 3D (por ejemplo, 22.2) a 2D (por ejemplo, 5.1) (DMX) debido a la falta de diferentes capas de reproducción en la configuración de los canales de salida. Los grados de libertad para obtener una experiencia auditiva similar con la configuración de los canales de salida con respecto a la diversidad y envoltura son reducidos y, por lo tanto, limitados. Las realizaciones de la invención proporcionan estrategias de submezcla que mejoran la conservación de la diversidad espacial de una configuración de canales de entrada, en la que los aparatos y procedimientos descritos no se limitan a ningún tipo específico de estrategia de submezcla y se pueden aplicar en diversos contextos y aplicaciones.

[0044] En lo sucesivo, se describen las realizaciones de la invención con referencia a la situación específica expuesta en la fig. 5. Sin embargo, los problemas y soluciones descritos pueden adaptarse fácilmente a otras situaciones con condiciones similares. Sin perder la generalidad, se suponen las siguientes configuraciones de canales de entrada y salida:

Configuración de canales de entrada: cuatro altavoces LC, CC, RC y ECC en las posiciones xi = (ai, pi), x2 = (a2, pi), x3 = (a3, pi) y x4 = (a4, p2), en la que a2 » a4 o a2 = a4.

[0045] Configuración de canales de salida: tres altavoces en la posición xi = (ai, pi), x2 = (a2, pi) y x3 = (a3, pi), es decir, el altavoz en la posición x4 se descarta en la submezcla, a representa el ángulo azimutal y p representa el ángulo de elevación.

[0046] Tal como se explica en lo anterior, una técnica de DMX simple daría prioridad a la conservación de la información de azimut direccional y sólo omitiría el desplazamiento de elevación. Por consiguiente, las señales del altavoz ECC en la posición x4 pasarían simplemente al altavoz CC en la posición x2. Sin embargo, al hacerlo se perderían algunas características. En primer lugar se pierden las diferencias de timbre debido a diferentes BRIR, que se aplican de modo inherente en las posiciones de reproducción x2 y x4. En segundo lugar se pierde la diversidad espacial de las señales de entrada, que se reproducen en diferentes posiciones x2 y x4. En tercer lugar se pierde una decorrelación inherente de las señales de entrada debido a las diferentes trayectorias de propagación acústica desde las posiciones x2 y x4 a los oídos del oyente.

[0047] Las realizaciones de la invención y los ejemplos adicionales no reivindicados persiguen la conservación o emulación de una o más de las características descritas mediante la aplicación de las estrategias explicadas en la presente memoria de forma separada o en combinación para el proceso de submezcla.

[0048] Las figs. 6a y 6b muestran vistas esquemáticas que explican un aparato 10 para implementar una estrategia en la cual se ponen en correspondencia un primer canal de entrada 12 y un segundo canal de entrada 14 con el mismo canal de salida 16, en la que el procesamiento del segundo canal de entrada se lleva a cabo mediante la aplicación de al menos uno de entre un filtro de ecualización y un filtro de decorrelación al segundo canal de entrada. Este procesamiento está indicado en la fig. 6a por el bloque 18.

[0049] Para los expertos en la materia es evidente que los aparatos explicados y descritos en la presente solicitud pueden ser implementados por medio de ordenadores o procesadores configurados y/o programados para obtener la funcionalidad descrita. Alternativamente, los aparatos pueden ser implementados en forma de otras estructuras de hardware programadas tales como matrices de puertas programables de campo y similares.

[0050] El primer canal de entrada 12 de la fig. 6a puede estar asociado al altavoz central CC en la dirección x2 y el segundo canal de entrada 14 puede estar asociado al altavoz central elevado ECC en la posición x4 (en la configuración de canales de entrada, respectivamente). El canal de salida 16 puede estar asociado al altavoz central ECC en la posición x2 (en la configuración de los canales de salida). La fig. 6b muestra que el canal 14 asociado al altavoz en la posición x4 se pone en correspondencia con el primer canal de salida 16 asociado al altavoz CC en la posición x2 y que esta correspondencia comprende el procesamiento 18 del segundo canal de entrada 14, es decir, el procesamiento de la señal de audio asociada al segundo canal de entrada 14. El procesamiento del segundo canal de entrada comprende la aplicación de al menos uno de entre un filtro de ecualización y un filtro de decorrelación al segundo canal de entrada con el fin de conservar las diferentes características entre los canales de entrada primero y segundo en la configuración de canales de entrada. El filtro de ecualización y/o el filtro de decorrelación pueden estar configurados de manera que conserven las características referentes a las diferencias de timbre debido a los diferentes BRIR, que se aplican de manera inherente en las diferentes posiciones de altavoz x2 y x4 asociadas a los canales de entrada primero y segundo. El filtro de ecualización y/o el filtro de decorrelación están configurados de manera que conserven la diversidad espacial de las señales de entrada, que se reproducen en posiciones diferentes de tal manera que la diversidad espacial de los canales de entrada primero y segundo se mantenga perceptible pese al hecho de que los canales de entrada primero y segundo se ponen en correspondencia con el mismo canal de salida.

[0051] Un filtro de decorrelación está configurado para conservar una decorrelación inherente de las señales de entrada debido a las diferentes trayectorias de propagación acústica desde los altavoces en diferentes posiciones asociados a los canales de entrada primero y segundo hasta los oídos del oyente.

[0052] Se aplica un filtro de ecualización al segundo canal de entrada, es decir, la señal de audio asociada al segundo canal de entrada en la posición x4, si se somete a submezcla hacia el altavoz CC en la posición x2. El filtro de ecualización compensa los cambios de timbre de los diferentes canales acústicos y se puede deducir basándose en el conocimiento experto y/o en datos de BRIR medidos o similares. Por ejemplo, se supone que la configuración de canales de entrada incluye un canal de tipo Voz de Dios (VoG) en una elevación de 90°. Si la configuración de los canales de salida sólo incluye altavoz en una capa y el canal VoG es desechado como, por ejemplo, con una configuración de salida 5.1, una técnica sencilla y directa consiste en distribuir el canal VoG a todos los altavoces de salida para conservar la información direccional del canal VoG al menos en el punto dulce.

[0053] Sin embargo, el altavoz VoG original se percibe de manera bastante diferente debido a una BRIR diferente. Mediante la aplicación de un filtro de ecualización especializado al canal VoG antes de la distribución a todos los altavoces de salida, se puede compensar la diferencia de timbre.

[0054] El filtro de ecualización puede estar configurado para ejecutar una ponderación dependiente de la frecuencia del canal de entrada correspondiente para tener en cuenta hallazgos psicoacústicos sobre la percepción direccional de las señales de audio. Un ejemplo de dichos hallazgos son las denominadas bandas de Blauert, que representan bandas determinantes de la dirección. La fig. 12 muestra tres gráficos 20, 22 y 24 que representan la probabilidad de que se reconozca una dirección específica de las señales de audio. Como se puede apreciar en el gráfico 20, las señales de audio de la parte superior pueden ser reconocidas con alta probabilidad en una banda de frecuencia 1200 entre 7 kHz y 10 kHz. Tal como se puede apreciar en el gráfico 22, las señales de audio procedentes de la parte posterior pueden ser reconocidas con alta probabilidad en una banda de frecuencia 1202 de entre aproximadamente 0,7 kHz y aproximadamente 2 kHz y en una banda de frecuencia 1204 de entre aproximadamente 10 kHz y aproximadamente 12,5 kHz. Como se puede apreciar en el gráfico 24, las señales de audio procedentes de la parte delantera pueden ser reconocidas con alta probabilidad en una banda de frecuencia 1206 de entre aproximadamente 0,3 kHz y 0,6 kHz y en una banda de frecuencia 1208 de entre aproximadamente 2,5 y aproximadamente 5,5 kHz.

[0055] El filtro de ecualización se configura aprovechando este reconocimiento. Dicho de otro modo, el filtro de ecualización puede estar configurado de manera que aplique coeficientes de ganancia más elevados (incremento de ganancia) a bandas de frecuencia conocidas por transmitir a un usuario la impresión de que el sonido llega de diferentes direcciones, en comparación con las otras bandas de frecuencia. En términos más específicos, si se pone en correspondencia un canal de entrada con un canal de salida más bajo, se puede incrementar la ganancia de una porción espectral del canal de entrada en la banda de frecuencia 1200 en el intervalo de entre 7 kHz y 10 kHz en comparación con otras porciones espectrales del segundo canal de entrada de tal manera que el oyente pueda tener la impresión de que la señal correspondiente proviene de una posición elevada. Del mismo modo, el filtro de ecualización puede estar configurado de manera que incremente la ganancia de otras porciones espectrales del segundo canal de entrada tal como se muestra en la fig. 12. Por ejemplo, en el caso en que se pone en correspondencia un canal de entrada con un canal de salida dispuesto en una posición más anterior las ganancias de las bandas 1206 y 1208 pueden ser incrementadas y en el caso de un canal de entrada que se pone en correspondencia con un canal de salida dispuesto en la posición más posterior las ganancias de las bandas 1202 y 1204 pueden ser incrementadas.

[0056] El aparato está configurado para aplicar un filtro de decorrelación al segundo canal de entrada. Por ejemplo, se puede aplicar un filtro de decorrelación/reverberación a la señal de entrada asociada al segundo canal de entrada (asociado al altavoz en la posición x4), si es sometida a submezcla hacia un altavoz en la posición x2. Dicho filtro de decorrelación/reverberación puede ser deducido de mediciones de BRIR o del conocimiento empírico sobre la acústica del recinto o similar. Si se pone en correspondencia el canal de entrada con varios canales de salida, la señal de filtro puede ser reproducida en los varios altavoces, de manera que a cada altavoz se le aplican filtros diferentes. El o los filtros pueden modelizar sólo reflexiones tempranas.

[0057] La fig. 8 muestra una vista esquemática de un aparato 30 que comprende un filtro 32, que puede representar un filtro de ecualización o un filtro de decorrelación. El aparato 30 recibe una serie de canales de entrada 34 y emite un número de canales de salida 36. Los canales de entrada 34 representan una configuración de canales de entrada y los canales de salida 36 representan una configuración de canales de salida. Tal como se muestra en la fig. 8, un tercer canal de entrada 38 se pone en correspondencia directamente con un segundo canal de salida 42 y un cuarto canal de entrada 40 se pone en correspondencia directamente con un tercer canal de salida 44. El tercer canal de entrada 38 puede ser un canal izquierdo asociado al altavoz izquierdo LC. El cuarto canal de entrada 40 puede ser un canal de entrada derecho asociado al altavoz derecho RC. El segundo canal de salida 42 puede ser un canal izquierdo asociado al altavoz izquierdo LC y el tercer canal de salida 44 puede ser un canal derecho asociado al altavoz derecho RC. El primer canal de entrada 12 puede ser el canal horizontal central asociado al altavoz central CC y el segundo canal de entrada 14 puede ser el canal central de altura asociado al altavoz central elevado ECC. El filtro 32 se aplica al segundo canal de entrada 14, es decir el canal central de altura. El filtro 32 puede ser un filtro de decorrelación o reverberación. Después del filtrado, se encamina el segundo canal de entrada hacia el altavoz horizontal central, es decir, el primer canal de salida 16 asociado al altavoz CC en la posición x2. De esta manera, los dos canales de entrada 12 y 14 se ponen en correspondencia con el primer canal de salida 16, tal como se indica en el bloque 46 de la fig. 8. El primer canal de entrada 12 y la versión procesada del segundo canal de entrada 14 pueden añadirse en el bloque 46 y pueden ser enviados al altavoz asociado al canal de salida 16, es decir, el altavoz horizontal central CC en el ejemplo descrito.

[0058] El filtro 32 puede ser un filtro de decorrelación o un filtro de reverberación con el fin de modelizar el efecto ambiental adicional percibido cuando están presentes canales acústicos separados. La decorrelación puede ofrecer el beneficio adicional de que se pueden reducir las alteraciones de cancelación de DMX mediante esta notificación. El filtro 32 puede ser un filtro de ecualización y puede estar configurado de manera que ejecute una ecualización del timbre. Alternativamente se puede aplicar un filtro de decorrelación y un filtro de reverberación con el fin de aplicar la ecualización de timbre antes de someter a submezcla la señal del altavoz elevado. El filtro 32 puede estar configurado para combinar las dos funcionalidades, es decir, la ecualización de timbre y la decorrelación.

[0059] El filtro de decorrelación puede ser implementado en forma de filtro de reverberación que introduce reverberaciones en el segundo canal de entrada. El filtro de decorrelación puede estar configurado para la convolución del segundo canal de entrada con una secuencia de ruido en caída exponencial. En las realizaciones de la invención se puede usar cualquier filtro de decorrelación que decorrelacione el segundo canal de entrada con el fin de conservar la impresión de un oyente de que la señal del primer canal de entrada y el segundo canal de entrada proviene de altavoces en diferentes posiciones. La fig. 7a muestra una vista esquemática de un aparato 50 según otra realización. El aparato 50 está configurado para recibir el primer canal de entrada 12 y el segundo canal de entrada 14. El aparato 50 está configurado para la correspondencia del primer canal de entrada 12 directamente con el primer canal de salida 16. El aparato 50 está configurado asimismo para generar una fuente fantasma mediante el ajuste panorámico entre el segundo y el tercer canal de salida, que pueden ser el segundo canal de salida 42 y el tercer canal de salida 44.

Esto está indicado en la fig. 7a por el bloque 52. De esa manera se genera una fuente fantasma que tiene un ángulo azimutal correspondiente al ángulo azimutal del segundo canal de entrada.

[0060] Cuando se considera el escenario de la fig. 5, el primer canal de entrada 12 puede estar asociado con el altavoz horizontal central CC, el segundo canal de entrada 14 puede estar asociado con el altavoz central elevado ECC, el primer canal de salida 16 puede estar asociado con el altavoz central CC, el segundo canal de salida 42 puede estar asociado con el altavoz izquierdo LC y el tercer canal de salida 44 puede estar asociado con el altavoz derecho RC. Por consiguiente, en la realización mostrada en la fig. 7a, se coloca una fuente fantasma en la posición x2 mediante el ajuste panorámico de los altavoces en las posiciones X1 y x3 en lugar de aplicar directamente la correspondiente señal al altavoz en la posición x2. Por consiguiente, se realiza el ajuste panorámico entre altavoces en las posiciones X1 y x3 aunque exista otro altavoz en la posición x2, que está más próxima a la posición x4 que las posiciones x1 y x3. Dicho de otro modo, el ajuste panorámico entre altavoces en las posiciones x1 y x3 se lleva a cabo aunque las desviaciones del ángulo azimutal Da entre los respectivos canales 42, 44 y el canal 14 sean mayores que la desviación del ángulo azimutal entre los canales 14 y 16, que es de 0°; véase la fig. 7b. Al actuar así se conserva la diversidad espacial introducida por los altavoces en las posiciones x2 y x4 mediante el uso de un altavoz separado en la posición x2 correspondiente a la señal asignada originariamente al canal de entrada correspondiente y una fuente fantasma en la misma posición. La señal de la fuente fantasma corresponde a la señal del altavoz en la posición x4 de la configuración de canales de entrada original.

[0061] La fig. 7b muestra esquemáticamente la correspondencia del canal de entrada asociado al altavoz en la posición x4 mediante el ajuste panorámico 52 entre los altavoces en las posiciones x1 y x3.

[0062] En las realizaciones descritas con respecto a las figs. 7a y 7b, se supone que una configuración de canales de entrada presenta una capa de altura y una horizontal que incluye un altavoz central de altura y un altavoz horizontal central. Más aún, se supone que la configuración de los canales de salida sólo presenta una capa horizontal que incluye un altavoz horizontal central y altavoces horizontales izquierdo y derecho, que pueden generar una fuente fantasma en la posición del altavoz horizontal central. Tal como se explica, en una técnica simple común, el canal de entrada central de altura se reproduciría con el altavoz de salida horizontal central. Por el contrario, según la realización de la invención descrita, se realiza un ajuste panorámico intencionado en el canal de entrada central de altura entre los altavoces horizontales izquierdo y derecho de salida. De esa manera se conserva la diversidad espacial del altavoz central de altura y el altavoz horizontal central de la configuración de canales de entrada mediante el uso del altavoz horizontal central y una fuente fantasma alimentada por el canal de entrada central de altura.

[0063] En las realizaciones de la invención, además del ajuste panorámico, se puede aplicar un filtro de ecualización para compensar los posibles cambios de timbre debido a diferentes BRIR.

[0064] En la fig. 9 se muestra una realización de un aparato 60 que implementa la técnica de ajuste panorámico. En la fig. 9, los canales de entrada y los canales de salida corresponden a los canales de entrada y el canal de salida mostrados en la fig. 8 y se omite una descripción repetida de los mismos. El aparato 60 está configurado para generar una fuente fantasma mediante el ajuste panorámico entre los canales de salida segundo y tercero 42 y 44, tal como se muestra en la fig. 9 por los bloques 62.

[0065] En las realizaciones de la invención, el ajuste panorámico se puede efectuar usando algoritmos de ajuste panorámico comunes, tales como los algoritmos de ajuste panorámico genérico como el ajuste panorámico por ley de tangentes en 2D o el ajuste panorámico vectorial basado en la amplitud en 3D; véase V. Pulkki: “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of the Audio Engineering Society, vol. 45, pág. 456-466, 1997, y no es necesario describirlo en más detalle en la presente memoria. Las ganancias de ajuste panorámico de la ley de ajuste panorámico aplicada determinan las ganancias que se aplican a la correspondencia de los canales de entrada con los canales de salida. Las señales respectivas obtenidas se suman a los canales de salida segundo y tercero 42 y 44, véanse los bloques sumadores 64 de la fig. 9. Por consiguiente, se pone en correspondencia el segundo canal de entrada 14 con los canales de salida segundo y tercero 42 y 44 realizando un ajuste panorámico con el fin de generar una fuente fantasma en la posición X2, el primer canal de entrada 12 se pone en correspondencia directamente con el primer canal de salida 16, y también se ponen en correspondencia directamente los canales de entrada tercero y cuarto 38 y 40 con los canales de salida segundo y tercero 42 y 44.

[0066] En realizaciones alternativas, el bloque 62 puede ser modificado para dar lugar también a la funcionalidad de un filtro de ecualización además de la funcionalidad de ajuste panorámico. Por consiguiente, mediante la estrategia de ajuste panorámico se pueden compensar los posibles cambios de timbre debido a diferentes BRIR además de conservar la diversidad espacial.

[0067] La fig. 10 muestra un sistema para generar una matriz de DMX, en la que se puede incorporar la presente invención. El sistema comprende series de reglas que describen correspondencias potenciales de los canales de entrada y salida, bloque 400, y un selector 402 que selecciona las reglas más apropiadas para una determinada combinación de una configuración de canales de entrada 404 y una combinación de configuraciones de los canales de salida 406 basándose en las series de reglas 400. El sistema puede comprender una interfaz apropiada para recibir información sobre la configuración de los canales de entrada 404 y la configuración de los canales de salida 406. La configuración de los canales de entrada define los canales presentes en una disposición de entrada, en la que cada canal de entrada tiene una dirección o posición asociada al mismo. La configuración de los canales de salida define los canales presentes en la configuración de salida, en la que cada canal de salida tiene una dirección o posición asociada. El selector 402 suministra las reglas seleccionadas 408 a un evaluador 410. El evaluador 410 recibe las reglas seleccionadas 408 y evalúa las reglas seleccionadas 408 para deducir coeficientes de DMX 412 sobre la base de las reglas seleccionadas 408. Se puede generar una matriz de DMX 414 a partir de los coeficientes de submezcla derivados. El evaluador 410 puede estar configurado para deducir la matriz de submezcla de los coeficientes de submezcla. El evaluador 410 puede recibir información sobre la configuración de los canales de entrada y la configuración de los canales de salida, como por ejemplo, información sobre la geometría de la configuración de salida (por ejemplo, las posiciones de los canales) e información sobre la geometría de la configuración de entrada (por ejemplo, las posiciones de los canales) y tener en cuenta la información al deducir los coeficientes de DMX. Tal como se muestra en la fig. 11, el sistema puede ser implementado en una unidad de procesamiento de señales 420 que comprende un procesador 422 programado o configurado para actuar como selector 402 y evaluador 410 y una memoria 424 configurada para almacenar al menos parte de las series 400 de reglas de correspondencia. Otra parte de las reglas de correspondencia puede ser verificada por el procesador sin acceder a las reglas almacenadas en la memoria 422. En cualquier caso, las reglas son enviadas al procesador para ejecutar los procedimientos descritos. La unidad de procesamiento de señales puede incluir una interfaz de entrada 426 para recibir las señales de entrada 228 asociadas a los canales de entrada y una interfaz de salida 428 para emitir las señales de salida 234 asociadas a los canales de salida.

[0068] Algunas de las reglas 400 pueden ser diseñadas de manera tal que la unidad de procesamiento de señales 420 implemente una realización de la invención. En la Tabla 1 se enumeran ejemplos de reglas para la correspondencia de un canal de entrada con uno o más canales de salida.

Tabla 1: Re las de corres ondencia

(continuación)

[0069] Los rótulos usados en la Tabla 1 correspondientes a los respectivos canales deben ser interpretados de la siguiente manera. Las letras “CH” significan “Canal”. La letra “M” representa “plano horizontal del oyente”, es decir, un ángulo de elevación de 0°. Este es el plano en el cual están situados los altavoces en la configuración normal 2D tales como estéreo o 5.1. La letra “L” representa un plano inferior, es decir, un ángulo de elevación < 0°. La letra “U” representa un plano superior, es decir, un ángulo de elevación > 0°, como por ejemplo, 30° como altavoz superior en una configuración 3D. La letra “T” representa el canal superior, es decir, un ángulo de elevación de 90°, que también se conoce como canal “la voz de Dios”. Situado después de uno de los rótulos M/L/U/T es un rótulo correspondiente a izquierdo (L) o derecho (R) seguido por el ángulo azimutal. Por ejemplo, CH_M_L030 y CH_M_R030 representan el canal izquierdo y derecho de una configuración estéreo convencional. El ángulo azimutal y el ángulo de elevación correspondientes a cada canal están indicados en la Tabla 1, excepto por los canales LFE y el último canal vacío.

[0070] La Tabla 1 muestra una matriz de reglas en la cual una o más reglas están asociadas a cada canal de entrada (canal de origen). Como se puede ver en la Tabla 1, cada regla define uno o más canales de salida (canales de destino), con los cuales se ha de poner en correspondencia el canal de entrada. Además, cada regla define el valor de ganancia G en su tercera columna. Cada regla define asimismo un índice EQ que indica si se debe aplicar un filtro de ecualización o no, y en caso afirmativo, el filtro de ecualización específico (índice EQ 1 a 4) que se debe aplicar. La correspondencia del canal de entrada con un canal de salida se realiza con la ganancia G dada en la columna 3 de la Tabla 1. La correspondencia del canal de entrada con dos canales de salida (indicado en la segunda columna) se realiza aplicando ajuste panorámico entre los dos canales de salida, en los que las ganancias de ajuste panorámico gi y g2 que surgen como resultado de la aplicación de la ley de ajuste panorámico se multiplican además por la regla respectiva (columna tres de la Tabla 1). Se aplican reglas especiales para el canal superior. Según con una primera regla, se pone en correspondencia el canal superior con todos los canales de salida del plano superior, lo que está indicado por ALL_U, y según una segunda regla (con menos prioridad), el canal superior se pone en correspondencia con todos los canales de salida del plano horizontal del oyente, indicado por ALL_M.

[0071] Al considerar las reglas indicadas en la Tabla 1, las reglas que definen la correspondencia del canal CH_U_000 con los canales izquierdo y derecho representan una implementación de una realización de la invención. Además, las reglas que definen la ecualización que se ha de aplicar representan implementaciones de las realizaciones de la invención.

[0072] Como se puede apreciar en la Tabla 1, se aplica uno de los filtros ecualizadores 1 a 4 si se pone en correspondencia un canal de entrada elevado con uno o más canales inferiores. Los valores de ganancia del ecualizador G^eqse pueden determinar de la siguiente manera sobre la base de las frecuencias centrales normalizadas dadas en la Tabla 2 y basándose en los parámetros consignados en la Tabla 3.

Tabla 2: Frecuencias centrales normalizadas de las bandas de 77 bancos de filtros

(continuación)

Tabla 3: Parámetros del ecualizador

G^eqconsiste en valores de ganancia por banda de frecuencia k y el índice de ecualizador e. Cinco ecualizadores predefinidos son combinaciones de diferentes filtros de pico (o filtros de banda). Como se puede ver en la Tabla 3, los ecualizadores G^eq,1, G^eq,2y G^eq,5incluyen un solo filtro de pico, el ecualizador G^eq,3incluye tres filtros de pico y el ecualizador G^eq,4incluye dos filtros de pico. Cada ecualizador es una cascada en serie de uno o más filtros de pico y una ganancia:

en la que banda(k) es la frecuencia central normalizada de la banda de frecuencia j, especificada en la Tabla 4, fs es la frecuencia de muestreo y la función pico () corresponde a G negativo

Ecuación 1

y por otra parte

Ecuación 2

[0073] Los parámetros correspondientes a los ecualizadores están especificados en la Tabla 3 En las Ecuaciones anteriores 1 y 2, b viene dado por banda(k) f^s/2, Q viene dado por P^qpara el filtro de pico respectivo (1 a n), G viene dado por P^gpara el filtro de pico respectivo y f viene dado por P^fpara el filtro de pico respectivo.

[0074] A modo de ejemplo, los valores de ganancia del ecualizador G^eq,4correspondientes al ecualizador que tiene el índice 4 se calculan con los parámetros de filtro tomados de la fila pertinente de la Tabla 3. La Tabla 3 enumera dos series de parámetros correspondientes a los filtros de pico para G^eq,4, es decir, series de parámetros correspondientes a n=1 y n=2. Los parámetros son la frecuencia de los picos Pf en Hz, el factor de calidad del filtro de pico P^q, la ganancia Pg (en dB) que se aplica a la frecuencia de los picos y una ganancia general g en dB que se aplica a la cascada de los dos filtros de pico (cascada de filtros para los parámetros n=1 y n=2).

[0075] Por consiguiente

■■-1

[0076] La definición del ecualizador antes citada define ganancias G^eq,4de fase cero de modo independiente por cada banda de frecuencia k. Cada banda k está especificada por su banda de frecuencia(k) central normalizada en la que 0<=banda<=1. Obsérvese que la banda de frecuencia normalizada=1 corresponde a la frecuencia no normalizada f^s/2, en la que f^sdenota la frecuencia de muestreo. Por lo tanto, band(k) • fs/2 denota la frecuencia central no normalizada de la banda k en Hz.

[0077] Por consiguiente, se pueden usar filtros ecualizadores diferentes en las realizaciones de la invención que se han descrito. Sin embargo, es obvio que la descripción de estos filtros de ecualización sólo tiene fines ilustrativos y que se pueden usar otros filtros de ecualización o filtros de decorrelación en otras realizaciones.

[0078] La Tabla 4 muestra canales ilustrativos con su ángulo azimutal y su ángulo de elevación respectivos asociados.

Tabla 4: Canales con los corres ondientes án ulos azimutal de elevación

(continuación)

[0079] En las realizaciones de la invención, el ajuste panorámico entre dos canales de destino se puede realizar mediante la aplicación de ajuste panorámico basado en la amplitud por la ley de tangentes. En el ajuste panorámico de un canal de origen con canales de destino primero y segundo se calcula un coeficiente de ganancia G1 correspondiente al primer canal de destino y se calcula un coeficiente de ganancia G2 correspondiente al segundo canal de destino:

G1 = (columna de valores de ganancia de la Tabla 4) * g1

y

G2 = (columna de valores de ganancia de la Tabla 4) * g2.

[0080] Las ganancias g1 y g2 se calculan aplicando el ajuste panorámico basado en amplitud por la ley de tangentes de la siguiente manera:

se repliegan los ángulos azimutales del canal de destino para que sean positivos

1 los ángulos azimutales de los canales de destino son a1 y a2 (véase la Tabla 4).

1 el ángulo azimutal del canal de origen (objetivo de ajuste panorámico) es ^{a Src.}

^{tan tan} a ^{+ 10 10}

donde 9 = tan Oo+tan a+10- I °

[0081] En otras realizaciones, se pueden aplicar diferentes leyes de ajuste panorámico.

[0082] En principio, las realizaciones de la invención pretenden modelizar un mayor número de canales acústicos en la configuración de canales de entrada por medio de correspondencias de canal cambiadas y modificaciones de las señales en la configuración de los canales de salida. En comparación con las técnicas simples que con frecuencia se consideran más exigentes, menos diversas y menos envolventes que la configuración de canales de entrada, mediante el empleo de las realizaciones de la invención se puede mejorar la diversidad espacial y la experiencia auditiva en general y hacerlas más agradables.

[0083] Dicho de otro modo, en las realizaciones de la invención se mezclan dos o más canales de entrada entre sí en una aplicación de submezcla, en la cual se aplica un módulo de procesamiento a una de las señales de entrada para conservar las diferentes características de las diferentes trayectorias de transmisión desde el canal original de entrada a los oídos del oyente. El módulo de procesamiento puede incluir filtros que modifican las características de la señal, por ejemplo, filtros de ecualización o filtros de decorrelación. En particular, los filtros ecualizadores pueden compensar la pérdida de diferentes timbres de los canales de entrada con diferentes elevaciones asignadas a los mismos. En las realizaciones de la invención, el módulo de procesamiento puede encaminar al menos una de las señales de entrada hacia varios altavoces de salida para generar una trayectoria de transmisión diferente hacia el oyente, conservando de esa manera la diversidad espacial de los canales de entrada. En las realizaciones de la invención, se pueden aplicar modificaciones de filtro y encaminamiento por separado o en combinación. En las realizaciones de la invención, el módulo de procesamiento puede ser reproducido a través de uno o varios altavoces.

[0084] Si bien se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente. Algunas o todas las etapas del procedimiento pueden ser ejecutadas por medio de (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una cualquiera o más de las etapas más importantes del procedimiento pueden ser ejecutadas por dicho aparato. En las realizaciones de la invención, los procedimientos descritos en la presente memoria son implementados por un procesador o implementados por un ordenador.

[0085] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo, un disco blando, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma, señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se ejecute el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por un ordenador.

[0086] En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto de programa informático con un código de programa, en el que el código de programa cumple la función de ejecutar uno de los procedimientos al ejecutarse el producto de programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un soporte legible por una máquina.

[0087] Otras realizaciones comprenden el programa informático para ejecutar uno de los procedimientos descritos en la presente memoria, almacenado en un soporte legible por una máquina.

[0088] Dicho de otro modo, una realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en la presente memoria al ejecutarse el programa informático en un ordenador.

[0089] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, un dispositivo lógico programable, programado, configurado o adaptado para ejecutar uno de los procedimientos descritos en la presente memoria.

[0090] Una realización adicional comprende un ordenador en el que se ha instalado el programa informático para ejecutar uno de los procedimientos descritos en la presente memoria.

[0091] En algunas realizaciones, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables de campo) para ejecutar algunas o todas las funcionalidades de los procedimientos descritos en la presente memoria. En algunas realizaciones, una matriz de puertas programables de campo puede cooperar con un microprocesador con el fin de ejecutar uno de los procedimientos descritos en la presente memoria. Por lo general, los procedimientos son ejecutados preferentemente por cualquier aparato de hardware.

[0092] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que para los expertos en la materia serán evidentes las modificaciones y variaciones de las disposiciones y detalles descritos en la presente memoria. Por lo tanto, se pretende estar limitado sólo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones mostradas en la presente memoria.

Claims

REIVINDICACIONES

1. Un aparato (10; 30; 50; 60) para la correspondencia de un primer canal de entrada de altavoz (12) y un segundo canal de entrada de altavoz (14) de una configuración de canales de entrada de altavoz con canales de salida de altavoz (16, 42, 44) de una configuración de canales de salida de altavoz, en el que cada canal de entrada de altavoz y cada canal de salida de altavoz tiene una dirección con respecto a una posición central del oyente (P), en el que los canales de entrada de altavoz primero y segundo (12, 14) tienen diferentes ángulos de elevación con respecto a un plano horizontal del oyente (300), en el que el aparato está caracterizado porque está configurado para:

la puesta en correspondencia del primer canal de entrada de altavoz (12) con un primer canal de salida de altavoz (16) de la configuración de canales de salida de altavoz; y

pese a que la desviación del ángulo azimutal entre una dirección del segundo canal de entrada de altavoz (14) y una dirección del primer canal de salida de altavoz (16) es menor que la desviación del ángulo azimutal entre una dirección del segundo canal de entrada de altavoz (14) y un segundo canal de salida de altavoz (42) y/o es menor que la desviación del ángulo azimutal entre la dirección del segundo canal de entrada de altavoz (14) y la dirección de un tercer canal de salida de altavoz (44), la puesta en correspondencia del segundo canal de entrada de altavoz (14) con los canales de salida de altavoz segundo y tercero (42, 44) mediante ajuste panorámico (52, 62) entre los canales de salida de altavoz segundo y tercero (42, 44) para generar una fuente fantasma en la posición del altavoz asociado con el primer canal de salida de altavoz.

2. El aparato según la reivindicación 1, configurado para procesar el segundo canal de entrada de altavoz (14) mediante la aplicación de al menos uno de entre un filtro de ecualización y un filtro de decorrelación al segundo canal de entrada de altavoz (14).

3. Un procedimiento para la correspondencia de un primer canal de entrada de altavoz (12) y un segundo canal de entrada de altavoz (14) de una configuración de canales de entrada de altavoz a canales de salida de altavoz de una configuración de canales de salida de altavoz, en el que cada canal de entrada de altavoz y cada canal de salida de altavoz tienen una dirección con respecto a una posición central del oyente (P), en el que los canales de entrada de altavoz primero y segundo (12, 14) tienen diferentes ángulos de elevación con respecto a un plano horizontal del oyente (300), que comprende:

4. Programa informático para realizar, durante su ejecución en un ordenador o un procesador, el procedimiento según la reivindicación 3.