ES2890049T3

ES2890049T3 - Sistema de reproducción de sonido

Info

Publication number: ES2890049T3
Application number: ES17713376T
Authority: ES
Inventors: Filippo Maria Fazi; Galvez Marcos Felipe Simon
Original assignee: University of Southampton
Current assignee: University of Southampton
Priority date: 2016-03-14
Filing date: 2017-03-14
Publication date: 2022-01-17
Anticipated expiration: 2037-03-14
Also published as: WO2017158338A1; CN109196884A; EP3430823B1; GB201604295D0; US10448158B2; EP3430823A1; US20190090060A1; CN109196884B; JP2019512952A

Abstract

Un conjunto de filtros para un aparato de procesamiento de señales para proporcionar señales de entrada a una matriz de altavoces (1), el conjunto de filtros que comprende una pluralidad de elementos de filtro de retardo y ganancia, y en donde el conjunto de filtros comprende una pluralidad de elementos de filtro de retardo y ganancia específicos de los altavoces (12) cada uno de los cuales se asocia con cada uno de los altavoces respectivos diferentes de la matriz de altavoces, y que además comprende una pluralidad de elementos de filtro independientes de los altavoces (10) cada uno de los cuales es común a algunos o todos los altavoces de la matriz, y el conjunto de filtros que se dispone para recibir parámetros de control operativo actualizados en base, al menos en parte, a una posición instantánea detectada de un oyente en relación con la matriz de altavoces, dicha posición instantánea de un oyente que se detecta mediante un rastreador de posición del oyente, en donde dichos parámetros de control operativo se ajustan de manera adaptativa en consecuencia.

Description

DESCRIPCIÓN

Sistema de reproducción de sonido

Campo Técnico

La presente invención se refiere en general a sistemas de reproducción de audio y sonido, y en particular, aunque no exclusivamente, a la generación de sonido 3D adaptable a la posición de los oyentes.

Antecedentes

La reproducción de audio 3D ha experimentado cambios significativos en su suministro al usuario. Esto comenzó con la introducción de dispositivos de reproducción multicanal, tal como los sistemas de altavoces 5.1, que se han vuelto solo parcialmente populares debido principalmente a su practicidad limitada (múltiples altavoces y cables que se disponen en la habitación). Hoy en día, el mercado de consumo de audio se encamina hacia el uso de soluciones más compactas como las barras de sonido. Prueba de ello son las cifras de ventas de estos dispositivos, que han aumentado considerablemente en los últimos dos años. Recientemente, el mercado del audio doméstico también ha visto la introducción de nuevas plataformas de reproducción de sonido, tal como los teléfonos móviles o las tabletas. Algunos fabricantes han intentado producir accesorios para que estos dispositivos reproduzcan audio 3D.

La tecnología de matriz de altavoces para la reproducción de audio 3D se está volviendo muy atractiva, especialmente debido al costo decreciente de la electrónica de procesamiento. Esto permite la creación de zonas de sonido personalizadas, en las que diferentes usuarios pueden escuchar diferentes materiales de audio sin interferir entre sí. Adicionalmente, es probable que el audio binaural que reproducen las matrices se vuelva cada vez más importante en el campo de la reproducción de sonido. El audio binaural, que inicialmente se diseñó para auriculares, es objeto de un intenso trabajo de investigación que llevan a cabo numerosos grupos académicos, empresas y emisoras, que actualmente están desarrollando nuevas soluciones e invirtiendo en esta tecnología. La reproducción de este material de audio con matrices de altavoces lleva la reproducción de audio 3D a otra dimensión, lo que permite al consumidor un alto realismo de audio.

Se encuentran disponibles una serie de soluciones e ideas propuestas para la reproducción de audio binaural a través de altavoces (a veces también denominado audio transaural), como se hace referencia con más detalle a continuación. Todos estos sistemas se basan en el uso de dos o más altavoces y de un aparato de procesamiento de señales para generar las señales de los altavoces, que normalmente incluye una red de filtros digitales para procesar la señal de audio de entrada. Se han propuesto algunos enfoques para la reproducción adaptativa de material de audio binaural, lo que significa que el algoritmo de procesamiento de señales digitales (DSP) se adapta en dependencia de la posición del oyente o los oyentes. Estos sistemas adaptativos hacen uso de una base de datos de filtros digitales para una serie de posiciones de escucha predefinidas y luego seleccionan los filtros que mejor se adaptan a la posición del oyente. El inconveniente de estos enfoques es que la base de datos de filtros digitales debe calcularse previamente y también se requiere un esquema de procesamiento de señales cuidadosamente ajustado para cambiar entre los filtros que se asocian a las diferentes posiciones del oyente sin comprometer la calidad del audio que se suministra. Por lo tanto, estos sistemas tienen un intervalo operativo limitado, que se da por el tamaño de la cuadrícula para la que se crean los filtros, y su aplicación se limita por la alta carga computacional que se requiere para su implementación.

Para superar esta limitación en el intervalo de operación y proporcionar una reproducción personal localizada; y/o reproducción binaural, se pueden implementar estrategias de DSP mejoradas, tal como la que se describe en la presente descripción.

El concepto de una matriz de altavoces existe desde la década de 1940; sin embargo, su uso para aplicaciones de audio no se extendió hasta la década de 1990, lo que introdujo un cambio de paradigma en las aplicaciones de megafonía, ya que se necesitaba mucha menos energía para obtener una mejor distribución de audio en una gran audiencia. En el campo del audio doméstico, no fue hasta hace muy poco que el uso de barras de sonido para aplicaciones de cine en casa se volvió popular. Muchas de las barras de sonido que están ahora disponibles en el mercado usan tecnologías de matriz tradicionales y, aunque proporcionan una calidad superior a los altavoces integrados que forman parte de muchos televisores en la actualidad, su rendimiento espacial es limitado.

Para proporcionar un mejor rendimiento de audio espacial, es posible usar técnicas de cancelación de diafonía. Un concepto que introdujo por primera vez Atal y Schroeder en 1966 [1], la cancelación de diafonía para la reproducción de audio se mostró como una idea eficaz, aunque prácticamente limitada por la tecnología disponible en ese momento. Esto se desarrolló aún más en la década de 1990 para dar lugar a arreglos óptimos de altavoces como el dipolo estéreo [2]. A principios de la década de 2000, Takeuchi y Nelson presentaron el concepto de OPSODIS [3], un sistema de dipolo estéreo de tres vías que garantizaba maximizar el rendimiento espacial así como también la calidad del audio.

Varios inventores consideraron previamente el uso de matrices de altavoces para la cancelación de diafonía, incluidos Bauck [4], Kuhn y otros [5], Li [6] y Hooley y otros [7], mediante el uso del mismo principio que las patentes citadas anteriormente pero con un mayor número de altavoces.

Sin embargo, un inconveniente de los dispositivos de reproducción de cancelación de diafonía que se conocen es que no se adaptan a la posición del oyente y limitan al oyente a estar en el punto óptimo del campo de sonido. Para permitir que el oyente se mueva libremente mientras escucha el audio, algunos sistemas emplean el seguimiento del oyente, como por ejemplo Hooley y otros. [9]. Otro ejemplo se presentó por Mannerheim y otros. [10]. Este último enfoque funciona creando una base de datos de varios filtros de cancelación de diafonía y cambiando los diferentes filtros (almacenados y predeterminados) de acuerdo con la posición del oyente. Por lo tanto, estos filtros deben calcularse previamente para tener en cuenta una gran cantidad de posibles posiciones de escucha y, por lo tanto, se necesitan grandes requisitos de memoria. Aparte de esto, su rendimiento se limita por el tamaño de la cuadrícula usada para calcular los filtros y no proporcionan una cancelación eficiente de la diafonía cuando la cabeza del oyente está entre dos posiciones de la cuadrícula.

En [13], [14], [15] y [16] se describen otros ejemplos de sistemas de la técnica anterior.

Se ha ideado un sistema de reproducción de sonido mejorado.

Resumen

De acuerdo con un aspecto de la invención, se proporciona un sistema de reproducción de sonido que comprende:

una matriz de altavoces,

un procesador de señales que determina las señales de entrada a la matriz de altavoces,

un rastreador de posición del oyente que se dispone para detectar la posición instantánea del oyente en relación con la matriz de altavoces,

el procesador de señales se configura para aplicar el conjunto de filtros de la reivindicación 1 a una grabación de sonido que emitirá la matriz de altavoces, para determinar las señales de entrada de los altavoces, en donde el procesador de señales se configura además para determinar los parámetros de control operativo actualizados del conjunto de filtros, en base al menos en parte a la posición instantánea de un oyente según la determine el rastreador de posición del oyente, y para ajustar de manera adaptativa los parámetros de control operativo del conjunto de filtros en consecuencia.

En las modalidades de la invención, se puede lograr una reducción en la carga del procesamiento de señales que se requiere, ya que no se requiere generar elementos de filtro de nuevo para cada instancia de una nueva posición del oyente, sino que se requiere calcular las actualizaciones de los cambios que se requieren en los parámetros operativos. Esto puede resultar ventajosamente en una reducción en la carga y el tiempo de procesamiento.

Se puede considerar que la invención comprende una matriz de altavoces que se controla mediante una red de filtros digitales que se crean y ajustan 'sobre la marcha' (es decir, en tiempo real) de acuerdo con la posición instantánea de uno o varios oyentes.

De acuerdo con otro aspecto de la invención, se proporciona un conjunto de filtros como se reivindica en la reivindicación 1.

De acuerdo con otro aspecto más de la invención, se proporciona un procesador de señales como se reivindica en la reivindicación 11.

El conjunto de filtros y el procesador de señales pueden implementarse (colectivamente) mediante un procesador de señales digitales.

A diferencia de los enfoques existentes, los requisitos del procesamiento de señales de las modalidades del sistema de reproducción de sonido pueden disminuir ventajosamente y las etapas de procesamiento subyacentes, por ejemplo, como pueden expresarse en forma algorítmica, no se limitan por el tamaño y la resolución de una cuadrícula de posición del oyente que se usa para la creación de una base de datos de filtros que se calcula previamente.

El conjunto de filtros puede considerarse como una estructura lógica subyacente o arquitectura funcional sustancialmente fija o no variable, y en donde el procesador de señales se dispone para ser capaz de controlar de manera adaptativa los parámetros de control de esa estructura lógica. Por estructura lógica se incluyen la referencia a los tipos de elementos de filtro, sus funcionalidades y su disposición entre sí y la matriz de altavoces. Preferentemente, en ese contexto, se varía solo o principalmente, la forma en que el conjunto de filtros actúa sobre la grabación de sonido mediante el cálculo y la implementación de los parámetros de control. En términos simplificados, esto puede pensarse como un procesador que implementa una ecuación o fórmula sobre los datos entrantes, tal como los datos de la grabación de sonido, y la ecuación incluye una variable, tal como un coeficiente. La ecuación/fórmula subyacente sigue siendo la misma, sin embargo, el coeficiente varía durante el procesamiento de los datos de entrada y, por lo tanto, la salida varía de acuerdo con los cambios que se realizan en el coeficiente.

El procesador de señales se dispone preferentemente para implementar cambios en los parámetros de control operativo del conjunto de filtros en tiempo real. Alternativamente, el conjunto de filtros puede ser no adaptativo, ya que las características (tales como los coeficientes de filtro u otros parámetros de control) son predeterminadas, por ejemplo, para un sistema de reproducción de sonido donde es poco probable que el oyente o los oyentes se muevan de posición en relación con la matriz de altavoces. Sin embargo, dicha disposición, aunque no es adaptable (automática) a través del seguimiento de la posición del oyente, podría disponerse o configurarse para permitir que los caracteres del filtro se actualicen de otra manera, tal como por intervención manual, durante un procedimiento de calibración o configuración, o de lo contrario, en situaciones según sea necesario.

La implementación de los parámetros de control actualizados se dispone preferentemente para controlar las características operativas del conjunto de filtros respecto al efecto del conjunto de filtros que se aplica a la grabación de sonido al generar las señales de entrada del altavoz.

El procesador de señales puede disponerse para determinar un valor o un conjunto de valores que se usan para actualizar los parámetros operativos del conjunto de filtros. El procesador de señales puede disponerse para determinar directa o indirectamente los parámetros de control operativo actualizados. Los parámetros de control operativo pueden considerarse como si fueran o comprendieran coeficientes de filtro. El procesador de señales puede comprender un calculador de coeficiente de filtro.

El procesador de señales puede disponerse para determinar una medida de un nuevo parámetro operativo o un cambio que se requiere en un parámetro operativo.

Se puede considerar que el procesador de señales implementa una secuencia de dos etapas de procesamiento o iteraciones, la primera que comprende determinar los parámetros operativos actualizados (o medidas o valores que los alteran adecuadamente) del filtro en relación con un cambio detectado en la posición del oyente, y la segunda que es el control adaptativo de los elementos de filtro mediante la implementación de los parámetros operativos actualizados.

El conjunto de filtros puede comprender o constituir varios generadores de haces acústicos, cada uno que se dispone para controlar los altavoces para que emitan múltiples haces acústicos.

Se apreciará que cuando los filtros se pueden realizar ventajosamente en el dominio digital, en ese caso la referencia a 'conjunto de filtros' y 'elementos de filtro' puede considerarse que representan funcionalidades y operaciones de procesamiento que realiza un procesador de datos que actúa sobre datos digitalizados. Los elementos de filtro de un conjunto de filtros pueden representarse y pensarse como una disposición lógica o una red de bloques funcionales. El conjunto de filtros puede, en términos generales, disponerse para controlar selectivamente la amplitud y/o la fase de los componentes de sonido que emiten los respectivos altavoces individuales o subconjuntos colectivos de los altavoces de la matriz de altavoces. Se puede considerar que uno o más elementos de filtro comprenden un elemento de ganancia y/o un elemento de retardo. Los parámetros de control ajustables pueden incluir una variable para determinar una ganancia, y/o una variable para determinar el retardo o la fase, para el, o cada, elemento de filtro.

Las operaciones de procesamiento de señales que realiza el conjunto de filtros pueden considerarse divididas en específicas de los altavoces y no específicas de los altavoces (es decir, comunes a algunos o todos los altavoces). Esta estructura de procesamiento de señal podría verse como una división del procesamiento en dos etapas: una primera etapa incluye un pequeño conjunto de filtros más complejos independientes de los altavoces, cuyo número depende del número de oyentes y no del número de altavoces. Una segunda etapa incluye un conjunto de filtros simples dependientes de los altavoces, que podrían ser tan simples como un conjunto de retardos (y ganancias) digitales. El número de estos filtros de segunda etapa depende del número de altavoces. Una ventaja de este enfoque es que la complejidad del DSP no aumenta significativamente con el número de altavoces porque el número de filtros complejos independientes de los altavoces no depende del número de altavoces. Dicho de otra manera, si aumenta el número de altavoces de una matriz de altavoces, el número de elementos de filtro independientes de los altavoces no aumenta. Esta es una ventaja técnica particular, ya que los elementos de filtro independientes de los altavoces son más complejos en comparación con los elementos de filtro dependientes de los altavoces.

Cada uno de la pluralidad de elementos de filtro específicos de los altavoces puede disponerse para usarse en el control de la señal de entrada para un altavoz respectivo particular. Preferentemente, el número de elementos de filtro específicos de los altavoces depende del número de altavoces y del número de oyentes.

Cada uno de la pluralidad de elementos de filtro independientes de los altavoces puede disponerse para usarse en el control de la señal de entrada para un subconjunto, o todos, los altavoces de la matriz. Preferentemente, el número de elementos de filtro independientes de los altavoces no depende del número de altavoces, sino del número de oyentes.

Se puede considerar que los elementos de filtro forman una arquitectura de filtro distribuida.

Se pueden asociar múltiples elementos de filtro específicos de los altavoces con al menos un altavoz.

El conjunto de filtros, o elementos de filtro particulares del mismo, pueden disponerse para operar en función de la frecuencia.

La grabación de sonido puede considerarse como datos representativos de material de audio.

Para resaltar las ventajas de las modalidades de la invención, un filtro digital se puede considerar como una suma de, por ejemplo, N operaciones digitales. Esto significa que una señal de audio digital se filtra en bloques de N muestras digitales. En el contexto de un sistema adaptativo, esto implica que no es posible cambiar inmediatamente los filtros de control, y es necesario esperar hasta que se emitan las N muestras de un filtro para realizar cualquier cambio de filtro adaptativo. En el caso de la matriz de altavoces, esto implica que si se usa un conjunto de filtros de control para controlar la reproducción en una determinada posición del oyente y el oyente se mueve a una posición diferente, no será posible adaptar la respuesta de la matriz hasta que se complete el procesamiento del filtro actual, lo que conducirá a una reproducción inexacta durante un breve período de tiempo que puede ser perceptible para el oyente. Se puede considerar que el sistema evita este problema mediante la descomposición de los elementos de filtro en un banco paralelo de elementos de filtro de ganancia y/o retardo de tiempo variable, donde anteriormente la suma requerida en forma serial de N operaciones digitales ahora se efectúa mediante un banco paralelo de retardos. Esto implica que no hay tiempo adicional entre el cambio de la salida del filtro desde una posición del oyente a una posición del oyente diferente, ya que los elementos de retardo y ganancia se activan en tiempo real en dependencia de la posición del oyente o de los oyentes. Ventajosamente, esto significa que el sistema de reproducción de sonido no solo puede adaptarse a los cambios en la posición del oyente, sino que también puede hacerlo de una manera muy sensible.

El procesador de señales puede disponerse para determinar las distancias desde los altavoces hasta los puntos de control de presión en la cabeza del oyente.

La matriz de altavoces puede comprender generalmente una pluralidad de altavoces que se pueden controlar individualmente o por subconjuntos. La matriz de altavoces comprende preferentemente transductores electroacústicos. La matriz de altavoces puede comprender una pluralidad de altavoces distribuidos espacialmente, que pueden distribuirse a lo largo de un acimut. Los altavoces pueden disponerse uno al lado del otro o en una relación adyacente, ocupando y dispuestos en un plano.

El sistema de reproducción de sonido puede considerarse como un sistema de reproducción de sonido que puede adaptarse automáticamente a los cambios en la posición del oyente.

El sistema permite preferentemente dos modos de funcionamiento diferentes: uno es la reproducción de audio binaural y el segundo es la reproducción de audio multizona personalizado, y ambos modos permiten a los oyentes moverse en el espacio y la salida de la matriz de altavoces se actualiza para maximizar la calidad de la reproducción (en la nueva posición del oyente).

El procesador de señales puede configurarse para que funcione en un modo de reproducción de sonido binaural. En este modo de operación, en el que para el oyente, o para cada uno de los oyentes, se hace que la matriz de altavoces emita un haz de sonido para el oído izquierdo del oyente y un haz para el oído derecho del oyente. Este modo puede denominarse modo de cancelación de diafonía. Los respectivos haces del oído izquierdo y derecho pueden generarse mediante el uso de un enfoque de filtrado en el que el haz para un oído no aporta energía sustancialmente o es insignificante en el otro oído del oyente. En un modo binaural, los generadores de haces acústicos pueden comprender un conjunto de filtros independientes de los altavoces (tal como los IF, 10), por ejemplo, como se define en la Ecuación 5 y/o un conjunto de filtros dependientes de los altavoces por altavoz (por ejemplo, los DF, 12) como se define en la Ecuación 6.

El procesador de señales puede configurarse para que funcione en un modo personalizado en el que para cada uno de los múltiples oyentes se generan haces acústicos que dirigen audio diferente a cada oyente (un haz para cada oyente) en una zona personalizada respectiva del campo de sonido. En este modo, los generadores de haces acústicos se pueden implementar mediante el uso de un conjunto de N filtros independientes de los altavoces (como los IF, 10) como se define en la Ecuación 5 y/o N filtros dependientes de los altavoces por altavoz (como los DF, 12) como se define en la Ecuación 6. Para el caso donde hay un solo oyente para el modo de audio binaural o dos oyentes para el modo de audio personalizado, los filtros independientes de los altavoces (tal como los filtros IF11, IF12, IF21 e IF22, como se muestra en las figuras de esta solicitud) pueden implementarse mediante el uso de las ecuaciones 7, 8, 9 y 10. El procesador de señales puede simplificarse (aún más) mediante el uso de un total de NxL filtros dependientes de los altavoces. Cada uno de los filtros dependientes de los altavoces se puede proporcionar convenientemente mediante un único elemento de filtro de retardo o de retardo y ganancia.

El procesador de señales puede disponerse para implementar cualquiera o todas las ecuaciones que se incluyen en la descripción detallada a continuación.

El usuario puede configurar el sistema para permitir a un usuario seleccionar un modo binaural o un modo personalizado de reproducción de sonido. El sistema puede comprender una interfaz de usuario para permitir la selección del modo, así como también ciertos parámetros de cada modo, tal como el número de oyentes.

El sistema también puede detectar automáticamente el número de oyentes y adaptar la reproducción que se requiere de acuerdo al número de oyentes.

De acuerdo con otro aspecto de la invención, se proporcionan instrucciones legibles por máquina que, cuando se ejecutan por un procesador de datos, se disponen para implementar el procesamiento de señales de un sistema de reproducción de sonido de manera que se configure para aplicar el conjunto de filtros de la reivindicación 1 a una grabación de sonido que emitirá una matriz de altavoces, para determinar las señales de entrada de los altavoces, en donde las instrucciones se configuran para determinar los parámetros de control operativo actualizados del conjunto de filtros, en base al menos en parte, a la posición instantánea de un oyente según la determine los datos de seguimiento de la posición del oyente, y para ajustar de manera adaptativa los parámetros de control operativo del conjunto de filtros en consecuencia.

Las instrucciones pueden almacenarse en un soporte de datos para que las ejecute una computadora (por ejemplo, un chip de procesador) o una placa DSP incorporada y/o pueden realizarse como software o firmware.

La invención puede incluir una o las características descritas en la descripción y/o como se muestra en los dibujos.

Breve Descripción de los Dibujos

A continuación, se describirán diversas modalidades de la invención, solo a modo de ejemplo, con referencia a los siguientes dibujos en los que:

La Figura 1 es una representación esquemática de un sistema de reproducción de sonido que opera en un modo de audio personal para múltiples oyentes, en el que se genera un sistema de audio capaz de generar varios haces de audio para reproducir varias señales de audio localizadas y diferentes que se ajustan a la posición de los oyentes,

La Figura 2 es una representación esquemática de un sistema de reproducción de sonido que opera en un modo de audio personal para dos oyentes que muestra un sistema de audio capaz de generar dos haces de audio para reproducir dos señales de audio diferentes y localizadas, que se ajustan automáticamente a la posición del oyente,

La Figura 3 es una representación esquemática de un sistema de reproducción de sonido que opera en un modo de audio binaural para múltiples oyentes que muestra un sistema de audio capaz de generar múltiples pares de haces binaurales para reproducir material binaural para varios oyentes múltiples que se ajusta automáticamente a la posición del oyente,

La Figura 4 es una representación esquemática de un sistema de reproducción de sonido que opera en un modo de audio binaural para un solo oyente. La figura ilustra un sistema de audio capaz de generar en el que se generan dos haces binaurales para reproducir material binaural para un solo oyente, y el sistema se dispone para ajustarse automáticamente a la posición del oyente,

La Figura 5 ilustra la selección de puntos de control en dependencia del modo de "audio personal" o un modo de reproducción "binaural" y cómo el dispositivo de seguimiento del oyente estima la posición del oyente,

La Figura 6a muestra un diagrama de bloques del procesador de señales digitales (DSP) que ilustra el esquema del DSP para generar los diferentes haces de audio que se muestran en las Figuras 1 y 3, en el que cada bloque generador de haz (BG) contiene el procesamiento de señales digitales para crear uno de los haces, y cuyos parámetros operativos se modifican de acuerdo con la posición del oyente que proporciona un dispositivo de seguimiento del oyente,

La Figura 6b ilustra el esquema del procesamiento de señales digitales contenido en uno de los bloques generadores de haz (BG) que se muestran en la Figura 6a, en donde cada bloque contiene un conjunto de filtros independientes de los altavoces; y un conjunto de filtros dependientes de los altavoces (DF) necesarios para cada uno de los altavoces de la matriz,

La Figura 7a ilustra el proceso para generar los dos haces de audio que se muestran en

las Figuras 2 y 4. Cada bloque generador de haz (BG) contiene el procesamiento de señales digitales para crear uno de los haces, y se modifica de acuerdo con la posición del oyente que proporciona un dispositivo de seguimiento del oyente. (Debe tenerse en cuenta que este es un caso especial del esquema del DSP que se ilustra en la Figura 6a),

La Figura 7b ilustra el procesamiento de señales digitales contenido en uno de los bloques BG que se muestran en la Figura 7a, en el que cada bloque contiene un conjunto de filtros independientes de los altavoces; se trata de un filtro de ecualización (EQ) y un conjunto de dos filtros independientes de los altavoces (IF) y, adicionalmente, también se necesitan dos filtros dependientes de los altavoces (DF) para cada altavoz. (Debe tenerse en cuenta que este es un caso especial del esquema del DSP que se ilustra en la Figura 6a),

La Figura 8a ilustra la estructura de uno de los filtros independientes de los altavoces (IF) como los que se muestran en las Figuras 6b y 7b, que se constituye por un banco de elementos de retardo y ganancia en paralelo,

La Figura 8b ilustra la estructura de uno de los filtros dependientes de los altavoces (DF) como los que se muestran en las Figuras 6b y 7b, que comprende un elemento de ganancia y de retardo,

La Figura 9 ilustra un conjunto de filtros esquemático generalizado de la invención en el que un diagrama de bloques del procesador de señales digitales (DSP) ilustra el esquema del DSP para generar los diferentes haces de audio que se muestran en las Figuras 1 y 3, en donde se incluye un conjunto de filtros independientes de los altavoces para cada haz; y se usa un solo conjunto de LxN filtros dependientes de los altavoces (DF) que es común a todos los haces; y

La Figura 10 ilustra una implementación específica de la modalidad de la Figura 9 en la que se ilustra un DSP que se dispone para generar los dos haces de audio que se muestran en las Figuras 2 y 4, y en donde el número total de filtros dependientes de los altavoces es aquí 2N.

Descripción Detallada

A continuación se describe un sistema de reproducción de sonido que funciona en dos modos principales. En lo que puede denominarse un modo de 'audio personal', que se muestra en las Figuras 1 y 2, una matriz de altavoces 1 proporciona un conjunto de haces dirigidos 2 hacia los diferentes usuarios 3. En este modo, los haces se crean mediante el uso de un enfoque de filtrado inverso de modo que el haz para un oyente no suministre casi ninguna energía acústica al otro oyente, lo cual es fundamental para proporcionar una separación de audio convincente y una reproducción de sonido multizona.

El sistema también funciona en un segundo modo de cancelación, 'binaural' o de diafonía, que se muestra en las Figuras 3 y 4. En este modo, la matriz de altavoces 1 proporciona varios pares de haces dirigidos 2 que se dirigen hacia los oídos de los diferentes oyentes 3; un par de haces para cada oyente, un haz para el oído izquierdo y un haz para el oído derecho. Los haces se crean mediante el uso de un enfoque de filtrado inverso, de modo que el haz para un oído casi no aporta energía al otro oído del usuario. Esto es fundamental para proporcionar un sonido envolvente virtual y convincente a través de señales binaurales.

El sistema de reproducción de sonido comprende un procesador de señales, tal como un procesador de datos, y el procesamiento se efectúa de acuerdo con instrucciones legibles por máquina que se almacenan en una memoria asociada con el procesador. El procesador de señales efectúa este procesamiento en el dominio digital.

Como se describirá a continuación, el sistema de reproducción de sonido es un sistema adaptativo en el que las señales de entrada a la matriz de altavoces se controlan en respuesta a un cambio en la posición instantánea de un oyente con relación a la matriz de altavoces.

La reproducción de sonido que se describe en la presente descripción puede funcionar con matrices de altavoces con un número arbitrario de unidades de altavoz, L, y de la misma manera es capaz de generar un número arbitrario de haces N para un número dado M de oyentes ya sea en el 'audio personal' o el modo 'binaural'. La principal diferencia entre los dos modos de reproducción es la manera en que se eligen los puntos de control para la creación de los haces; para el modo de 'audio personal', estos puntos de control son el centro de la cabeza del oyente (o las cabezas de los oyentes), mientras que para el modo 'binaural' los puntos de control son los oídos del oyente (o los oyentes), como se muestra en la Figura 5.

Para ambos modos de reproducción, los parámetros de control de los filtros usados para controlar la salida de la matriz de altavoces se actualizan en tiempo real de acuerdo con las posiciones de los oyentes. La información posicional del oyente se obtiene en tiempo real mediante un dispositivo de seguimiento del oyente 4, que proporciona las coordenadas cartesianas de las posiciones 5 de los oyentes para el modo de audio personal o de las posiciones de los oídos del oyente para el modo binaural, como se muestra en la Figura 5. Este dispositivo puede ser cualquier tipo de dispositivo adecuado, por ejemplo, un rastreador magnético, un rastreador de video, un Kinect de Microsoft, un teléfono móvil con GPS, un rastreador de infrarrojos o un control remoto que sostiene el oyente. La información de la posición del oyente se transmite en tiempo real a un calculador de coeficiente de filtro 6. Este bloque toma la información de la posición x, y, z de cada oyente 3 y genera un conjunto de coeficientes de filtro 7. Posteriormente, esta información se transmite a los diferentes generadores de haces (BG 8), como se muestra en las Figuras 6a y 7a, que comprenden los filtros de control de matriz y generan haces acústicos para reproducir las diversas señales personalizadas o binaurales, según se requiera.

La estructura lógica del procesamiento de señales digitales que se produce en cada generador de haz ((BG, 8) que se muestra en las Figuras 6a y 7a) se puede observar en las Figuras 6b y 7b. Los parámetros operativos instantáneos de los generadores de haces se controlan en tiempo real mediante los coeficientes de filtro 7 y comprenden un conjunto de filtros independientes de los altavoces y un conjunto de filtros dependientes de los altavoces. Los filtros independientes de los altavoces se denominan así porque son comunes para todos los altavoces y se forman por un filtro de ecualización, EQ, 9 y un conjunto de filtros independientes, IF, 10. Los filtros dependientes de los altavoces, DF, 12 son diferentes para cada uno de los altavoces 13 de la matriz.

Se hace referencia a las Figuras 9 y 10 que muestran una modalidad alternativa, pero que abarca sustancialmente el mismo concepto subyacente. En el conjunto de filtros que se muestra en la Figura 9, se muestra el caso generalizado en el que el procesamiento de la señal se simplifica aún más mediante el uso de un conjunto de filtros dependientes de los altavoces que es común a todos los generadores de haces. Esto permite de manera muy ventajosa una reducción significativa en el número de elementos de filtro dependientes de los altavoces necesarios. En la Figura 10, la disposición del filtro se relaciona con el caso específico de dos haces generados, pero de manera similar, todos los filtros dependientes de los altavoces son comunes a ambos haces.

Un aspecto del sistema se basa en la descomposición de un filtro dado en un conjunto de elementos de retardo y ganancia dispersos. Los filtros pueden crearse en base a la coincidencia de presión o la inversión de mínimos cuadrados, como se muestra, por ejemplo, en [11, 12], pero también pueden crearse siguiendo cualquier procedimiento inverso para la reproducción de sonido. Sin embargo, a diferencia de las técnicas anteriores, el sistema puede producir en tiempo real los coeficientes de los filtros en el dominio del tiempo. Esto se logra determinando soluciones analíticas instantáneas del problema inverso subyacente.

En base a la información que proporciona el dispositivo de seguimiento del oyente, el calculador de coeficiente de filtro 6 estima las distancias 14, rn, desde cada altavoz de la matriz hasta los puntos de control de presión, como se muestra en la Figura 5. El centro de la cabeza de los oyentes 15 o los oídos de los oyentes 16 definen los puntos de control de presión, en dependencia del modo de reproducción de sonido, ya sea 'audio personal' o 'binaural', respectivamente.

Estas distancias se usan posteriormente para formar las funciones de transferencia electroacústica de la matriz de altavoces. Estas están contenidas en la matriz C, que tiene una dimensión N x L, donde N es el número de puntos de control y L es el número de altavoces.

Esto se escribe como:

Cada elemento de esta matriz se forma asumiendo un comportamiento monopolo de cada uno de los altavoces de la matriz.

donde k = w/c0 es el número de onda, siendo w = 2n f la frecuencia pulsante en rad/s y c0 la velocidad del sonido en el aire, y J = V - l . En este caso, Cni = 1/rni es un factor de atenuación.

Los filtros, dados como un vector H, se definen mediante una ecuación de la forma

donde 'det' representa el determinante de la matriz [CCH f i I] y 'adj' representa la matriz adjunta. Más particularmente, - la matriz adjunta (CCH f i I) representa los filtros independientes de los altavoces

- la matriz de transposición CH representa los filtros dependientes de los altavoces

- La expresión 1/det(CCH f i I) representa el filtro de ecualización

La división del procesamiento de señales en estos tres grupos o elementos separados (lógicos), correspondientes a las etapas de filtrado separadas, permite una simplificación significativa del procesamiento de señales, como se describió anteriormente. La magnitud f i representa un parámetro de regularización que se usa para controlar la cantidad de energía eléctrica que usan los filtros. El vector pt es el vector de presión objetivo, usado para controlar la presión que se reproduce en los diferentes puntos de control de presión para cada uno de los haces, con un tamaño N x 1. La selección de los vectores objetivo de presión se realiza de acuerdo con los puntos de control que se representan en la Figura 5. Para el modo de audio personal, es 1 en las posiciones del oyente donde se debe maximizar el nivel de presión sonora y 0 en las posiciones del oyente donde se minimiza la señal de audio. Para el modo de audio binaural, es 1 en el oído de los oyentes donde se debe maximizar la presión, y 0 en los oídos de los oyentes, donde se debe minimizar la presión. La matriz adjunta se puede escribir como

donde cada an,m son los elementos adjuntos de la matriz.

Los elementos adjuntos, que se expresan como la sumatoria de (N - 1)!L(N-1) retardos, sirven para crear los filtros independientes de los altavoces, IF, 10 que se muestran en las Figuras 6b y 7b, y sus respuestas de impulso se definen como

con un total de N filtros independientes de los altavoces necesarios por haz, donde T es un retardo de modelado que se introduce para garantizar que los filtros sean causales. Cada elemento de filtro que se expresa en la Ecuación 5 puede implementarse en tiempo real mediante un banco paralelo de elementos de retardo y ganancia variables (17, Figura 8a) cuyos coeficientes, gb,n,m, y db,n,m, pueden calcularse a partir de la matriz adjunta y actualizarse en tiempo real en base a la información del coeficiente del filtro (7, Figuras 6a y 7a). Alternativamente, los filtros que se expresa en la Ecuación 5 se pueden implementar como filtros FIR o IIR.

El sistema puede incluir un filtro de ecualización, (EQ, 9), que se muestra en las Figuras 6b y 7b. Este filtro se puede implementar como FIR o IIR. Los coeficientes del filtro de ecualización pueden calcularse a partir del determinante det (CCH I) y pueden actualizarse en tiempo real en dependencia de la posición del oyente.

Los filtros dependientes de los altavoces se expresan como

donde gn¡ puede elegirse como Cniy rn = r j c 0. Estos se implementan mediante un único elemento de retardo y ganancia 17, como el que se ilustra en la Figura 8b, que se controla en tiempo real mediante la información de los coeficientes de filtro 7. Es posible tener un conjunto de NL filtros dependientes de los altavoces para cada generador de haz, como se muestra en la Figura 7. Sin embargo, dado que los filtros dependientes de los altavoces son los mismos para cada generador de haz, es posible simplificar el procesamiento de señales mediante el uso de un conjunto de filtros independientes de los altavoces que es común a todos los generadores de haces, teniendo por lo tanto un total de NL filtros dependientes de los altavoces. Esto se muestra en las Figuras 9 y 10. En la Figura 9 se muestra el caso generalizado, y en la Figura 10 se muestra el caso de un escenario de dos haces. En cada caso, se proporciona ventajosamente un único conjunto de elementos de filtro independientes de los altavoces para todos los haces. Para el caso específico en el que la matriz de altavoces funciona en modo de 'audio personal' con 2 oyentes o en modo 'binaural' con un solo oyente, como en el esquema del DSP de la Figura 7b, la expresión en el dominio del tiempo para los filtros independientes de los altavoces, IF, 10 y los filtros dependientes de los altavoces 12 puede obtenerse de una manera más simple y directa. Esto es conveniente, porque puede usarse para programar el bloque calculador de coeficiente de filtro 6 de una manera muy eficiente. Las respuestas de impulso de los filtros independientes de los altavoces 10 se pueden expresar en el dominio del tiempo como:

y

I F ^{2 2} = «22 < M £ — 7 ) . ( 10)

donde T es un retardo de modelado.

Es posible elegir las siguientes cantidades para que sean

donde A t = |ci||c²| fi(|ci|+|c²|) f i2. Estas expresiones, que se actualizan en tiempo real mediante el calculador de coeficiente de filtro 6, dan los coeficientes de filtro 7 usados para completar los diferentes elementos de retardo y ganancia para los elementos de retardo y ganancia 17 de los filtros independientes que se muestran en la Figura 8a. Para el diagrama del DSP que se muestra en la Figura 7b, el filtro de ecualización, EQ, 9 se puede implementar como un filtro FIR o IIR. Los coeficientes del filtro de ecualización se pueden calcular a partir del determinante, det (CCH fi I), y se pueden actualizar en tiempo real en dependencia de la posición del oyente.

Las respuestas de impulso de los filtros dependientes de los altavoces se expresan en el dominio del tiempo como DFi¡ = b-uSCt Tu -- T),

y

DF2; — ¡híSit -f 72/ — T),

donde es posible elegir £>¹/ = C11 y b2i = C21. Estas respuestas de impulso se implementan mediante el uso de disposiciones de filtros dependientes de los altavoces como se muestra en la Figura 8b constituidas por un elemento de retardo y ganancia 17.

En contraste con los enfoques que se conocen, las técnicas de producción de sonido anteriores calculan ventajosamente los filtros para las matrices de altavoces mediante el uso de un enfoque en el dominio del tiempo, que puede obtener los coeficientes de filtro en tiempo real para cada posición del oyente. Esto requiere un esquema de procesamiento de señales más simple y menos exigente y no limita el intervalo de movimientos del oyente al tamaño de la cuadrícula de medición.

Referencias

[1] S. Atal y R. Schroeder, 'Traductor de fuente de sonido aparente', Patente, 22 de febrero de 1966, Patente de los Estados Unidos 3,236,949. [En línea].

[2] H. Hamada, O. Kirkeby, P. Nelson y F. Orduna-Bustamante, 'Sistemas de grabación y reproducción de sonido', Patente, 29 de febrero de 1996, Solicitud de patente WO. PCT/GB1995/002,005.

[3] P. Nelson y T. Takeuchi, 'Distribución óptima de fuente', 27 de septiembre de 2005, Patente de los Estados Unidos 6,950,524.

[4] J. Bauck, 'Dispositivo estéreo Transaural', Patente, 23 de enero de 2007, Patente de los Estados Unidos 7,167,566.

[5] C. Kuhn, R. Pellegrini, M. Rosenthal y E. Corteel, 'Método y sistema para producir una impresión binaural mediante el uso de altavoces', Patente, 18 de septiembre de 2012, Patente de los Estados Unidos 8,270,642.

[6] Y. Li, 'Generación de sonido 3D con posicionamiento de fuente ajustable', Patente, 19 de abril de 2012, Solicitud de Patente de los Estados Unidos. 12/925,121.

[7] A. Hooley, P. Windle y E. CHOUEIRI, 'Sistema de altavoz de matriz', 17 de julio de 2013, Solicitud de patente EP. EP20,110,752,332.

[8] F. Fazi, S. Kamdar, P. Otto e Y. Toshiro, 'Método para controlar una matriz de altavoces para proporcionar sonido envolvente virtual espacializado, localizado y binaural', 24 de mayo de 2012, Solicitud de patente WO. PCT/US2011/060,872.

[9] T. Hooley y R. Topliss, 'Altavoz con seguimiento de posición de un oyente', 16 de febrero de 2012, Solicitud de patente WO. PCT/GB2011/000,609.

[10] P. Mannerheim, P. Nelson e Y. Kim, 'Método y aparato para rastrear la posición de la cabeza del oyente para acústica estéreo virtual', 11 de diciembre de 2012, Patente de los Estados Unidos 8,331,614.

[11] O. Kirkeby, P. A. Nelson, H. Hamada y F. Orduña Bustamante, 'Deconvolución rápida de sistemas multicanal mediante regularización', IEEE Transactions on Audio Speech and Language Processing, vol. 6, núm. 2, 1998.

[12] M. F. Simon Gálvez, S. J. Elliott, y J. Cheer, 'Un conjunto superdirectivo de fuentes de desplazamiento de fase', The Journal of the Acoustical Society of America, vol. 132, núm. 2, págs. 746-756, 2012.

[13] Kim Young Tae y otros, US 2012/170762.

[14] Gardner William, US 6243,476.

[15] Ko Sang-chul, US 2010/150382.

[16] Kim Sun-Min, US 2007/076892.

Claims

REIVINDICACIONES

1. Un conjunto de filtros para un aparato de procesamiento de señales para proporcionar señales de entrada a una matriz de altavoces (1), el conjunto de filtros que comprende una pluralidad de elementos de filtro de retardo y ganancia, y en donde el conjunto de filtros comprende una pluralidad de elementos de filtro de retardo y ganancia específicos de los altavoces (12) cada uno de los cuales se asocia con cada uno de los altavoces respectivos diferentes de la matriz de altavoces, y que además comprende una pluralidad de elementos de filtro independientes de los altavoces (10) cada uno de los cuales es común a algunos o todos los altavoces de la matriz, y el conjunto de filtros que se dispone para recibir parámetros de control operativo actualizados en base, al menos en parte, a una posición instantánea detectada de un oyente en relación con la matriz de altavoces, dicha posición instantánea de un oyente que se detecta mediante un rastreador de posición del oyente, en donde dichos parámetros de control operativo se ajustan de manera adaptativa en consecuencia.

2. Un conjunto de filtros como se reivindica en la reivindicación 1, que comprende o constituye una serie de generadores de haces acústicos (8), cada uno que se dispone para controlar los altavoces para que emitan múltiples haces acústicos.

3. Un conjunto de filtros como se reivindica en la reivindicación 2, en el que los generadores de haces (8) se disponen para generar haces acústicos que suministran señales de audio binaural a uno o más oyentes.

4. Un conjunto de filtros de acuerdo con cualquiera de las reivindicaciones 2 o 3, en el que los generadores de haces (8) se disponen para suministrar diferentes audios a diferentes oyentes respectivos.

5. Un conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 4, que comprende un filtro de ecualización que comprende al menos uno de un filtro no adaptativo de respuesta finita al impulso, FIR, un filtro no adaptativo de respuesta infinita al impulso, IIR, un filtro adaptativo de respuesta finita al impulso, FIR, y un filtro adaptativo de respuesta infinita al impulso, IIR.

6. Un conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 5, que comprende la función de transferencia relacionada con la cabeza, HRTF, y filtros de compensación de respuesta finita al impulso, FIR que se disponen para aplanar la presión que se reproduce en los oídos de los oyentes.

7. Un conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 6, que se dispone para su uso en la determinación de soluciones instantáneas del problema inverso subyacente.

8. Un conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 7, en el que cada uno de los elementos de filtro específicos de los altavoces (12) comprende un elemento de retardo y ganancia.

9. Un conjunto de filtros como se reivindica en la reivindicación 2 o cualquiera de las reivindicaciones 3 a 8 cuando dependen de la reivindicación 2, en el que un grupo de elementos de filtro específicos de los altavoces (12) se disponen para ser comunes a al menos dos o todos los haces acústicos que se generan.

10. Un conjunto de filtros como se reivindica en la reivindicación 9, en el que el número de elementos de filtro específicos de los altavoces (12) es LN, donde L es el número de altavoces y N es el número de haces acústicos.

11. Un procesador de señales que comprende el conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 10.

12. Un sistema de reproducción de sonido que comprende el conjunto de filtros como se reivindica en cualquiera de las reivindicaciones 1 a 10, el sistema que comprende además:

una matriz de altavoces (1),

un rastreador de posición del oyente (4) que se dispone para detectar la posición instantánea del oyente en relación con la matriz de altavoces,

el procesador de señales se configura para aplicar el conjunto de filtros a una grabación de sonido que emitirá la matriz de altavoces, para determinar las señales de entrada de los altavoces, en donde el procesador de señales se configura además para determinar los parámetros de control operativo actualizados del conjunto de filtros, en base al menos en parte a la posición instantánea de un oyente según lo determine el rastreador de la posición del oyente, y para ajustar de manera adaptativa los parámetros de control operativo del conjunto de filtros en consecuencia.

13. Un sistema de reproducción de sonido como se reivindica en la reivindicación 12, que se dispone para determinar un valor o un conjunto de valores que se usan para actualizar los parámetros operativos del conjunto de filtros.

14. Un sistema de reproducción de sonido como se reivindica en la reivindicación 12 o la reivindicación 13, en el que el conjunto de filtros comprende o constituye una serie de generadores de haces acústicos (8), cada uno que se dispone para controlar los altavoces para que emitan múltiples haces acústicos (2).

15. Un sistema de reproducción de sonido como se reivindica en la reivindicación 14, en el que la dirección de los haces acústicos (2) que se producen se dispone para variar en respuesta al posicionamiento del oyente que se detecta con relación a la matriz de altavoces (1).

16. Un sistema de reproducción de sonido como se reivindica en la reivindicación 14 o la reivindicación 15, en el que los generadores de haces (8) se disponen para generar haces acústicos que suministran señales de audio binaural a uno o más oyentes.

17. Un sistema de reproducción de sonido como se reivindica en cualquiera de las reivindicaciones 14 a 16, en el que los generadores de haces (8) se disponen para controlar la presión que se reproduce en los oídos de al menos un oyente teniendo en cuenta el posicionamiento del oyente detectado.

18. Instrucciones legibles por máquina, que cuando son ejecutadas por un procesador de datos, se disponen para implementar el procesamiento de señales de un sistema de reproducción de sonido de manera que se configure para aplicar el conjunto de filtros de cualquiera de las reivindicaciones 1 a 10 a una grabación de sonido que emitirá una matriz de altavoces (1), para determinar las señales de entrada de los altavoces, en donde las instrucciones se configuran para determinar los parámetros de control operativo actualizados del conjunto de filtros, en base al menos en parte a la posición instantánea de un oyente según la determine los datos de seguimiento de la posición del oyente y para ajustar de manera adaptativa los parámetros de control operativo del conjunto de filtros en consecuencia.