ES2898951T3 - Virtualización de auricular - Google Patents

Virtualización de auricular Download PDF

Info

Publication number
ES2898951T3
ES2898951T3 ES19170555T ES19170555T ES2898951T3 ES 2898951 T3 ES2898951 T3 ES 2898951T3 ES 19170555 T ES19170555 T ES 19170555T ES 19170555 T ES19170555 T ES 19170555T ES 2898951 T3 ES2898951 T3 ES 2898951T3
Authority
ES
Spain
Prior art keywords
reflections
time
present disclosure
brir
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19170555T
Other languages
English (en)
Inventor
Louis D Fielder
Zhiwei Shuang
Grant A Davidson
Xiguang Zheng
Mark S Vinton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201510077020.3A external-priority patent/CN105992119A/zh
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2898951T3 publication Critical patent/ES2898951T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Headphones And Earphones (AREA)

Abstract

Un sistema (100) para la virtualización de auricular, que comprende: una unidad (110) de filtrado configurada para convolucionar un par de respuestas de impulso de sala binaurales, BRIR, que contienen reflexiones controladas direccionalmente que imparten una señal de percepción deseada con una señal de entrada de audio correspondiente a una ubicación de fuente de sonido para producir un conjunto de señales intermedias de oído izquierdo y oído derecho; un generador de eco estocástico configurado para generar coeficientes para la unidad de filtrado; y una unidad (120) de combinación configurada para recibir las señales intermedias y combinarlas para formar una señal de salida binaural, caracterizado porque las reflexiones controladas direccionalmente tienen un patrón direccional en el que una dirección de llegada cambia en función del tiempo para proporcionar al par de BRIR una correlación cruzada interaural, IACC, que varía en función del tiempo y la frecuencia y en la que el generador de eco estocástico agrega un componente de dirección estocástica.

Description

DESCRIPCIÓN
Virtualización de auricular
Tecnología
Las realizaciones de la presente divulgación se refieren generalmente al procesamiento de señales de audio y, más específicamente, a la generación de reverberación para la virtualización de auricular.
Antecedentes
Para crear una experiencia de audio más envolvente, se puede usar la reproducción de audio binaural para impartir una sensación de espacio a los programas de audio estéreo de 2 canales y multicanal cuando se presentan a través de auriculares. En general, la sensación de espacio se puede crear convolucionando respuestas de impulso de sala binaurales (BRIR) diseñadas apropiadamente con cada canal u objeto de audio en el programa, donde la BRIR caracteriza las transformaciones de las señales de audio desde un punto específico en un espacio hasta los oídos del oyente en un entorno acústico específico. El procesamiento puede ser aplicado por el creador del contenido o por el dispositivo de reproducción del consumidor.
Un enfoque de diseño de virtualizador es derivar todas o parte de las BRIR a partir de mediciones físicas de la sala/cabeza o simulaciones de modelo de sala/cabeza. Típicamente, se selecciona una sala o modelo de sala que tenga propiedades acústicas muy deseables, con el objetivo de que el virtualizador de auricular pueda reproducir la experiencia auditiva convincente de la sala real. Bajo el supuesto de que el modelo de sala incorpora con precisión las características acústicas de la sala de escucha seleccionada, este enfoque produce las BRIR virtualizadas que aplican inherentemente las señales auditivas esenciales para la percepción de audio espacial. Las señales auditivas pueden incluir, por ejemplo, diferencia de tiempo interaural (ITD), diferencia de nivel interaural (ILD), correlación cruzada interaural (IACC), tiempo de reverberación (por ejemplo, T60 en función de la frecuencia), relación de energía directa a reverberante (DR), picos y grados espectrales específicos o densidad de eco. En condiciones ideales de medición de BRIR y audición de auriculares, las reproducciones de audio binaural de archivos de audio multicanal basadas en BRIR de sala física pueden sonar prácticamente indistinguibles de las presentaciones de altavoz en la misma sala.
Sin embargo, un inconveniente de este enfoque es que las BRIR de la sala física pueden modificar la señal para que se reproduzca de formas no deseadas. Cuando las BRIR se diseñan respetando las leyes de la acústica de la sala, algunas de las señales perceptivas que conducen a una sensación de externalización, como el peinado espectral y los tiempos T60 prolongados, también provocan efectos secundarios como la coloración del sonido y la difuminación del tiempo. De hecho, incluso las salas de escucha de alta calidad impartirán algunos efectos secundarios a la señal de salida reproducida que no son deseables para la reproducción de auriculares. Además, la experiencia auditiva convincente que se puede lograr durante la escucha de contenido binaural en la sala de medición real rara vez se logra al escuchar el mismo contenido en otros entornos (salas).
El informe de búsqueda europeo cita el artículo "Reproducción de audio binaural eficiente usando rutas independientes tempranas y difusas", MENZER ET AL, CONVENCIÓN AES 132 ("D1"), el artículo "Reverberación binaural usando dos redes de retardo de retroalimentación paralelas", MENZER ET AL, 40° CONGRESO INTERNACIONAL: AUDIO ESPACIAL: SENTIR EL SONIDO DEL ESPACIO ("D2") y el documento US 2005/213786 A1 ("D3").
D1 describe una estructura de reproducción binaural de múltiples fuentes que implementa de manera eficiente la reverberación binaural plausible, incluidas las reflexiones tempranas y la reverberación difusa. La estructura contiene líneas de retardo y una red de retardo de retroalimentación que operan de forma independiente, modelando reflexiones tempranas y reverberación difusa, respectivamente.
D2 describe una estructura de reverberador donde las reflexiones tempranas se modelan usando una red de retardo de retroalimentación (FDN) y la reverberación tardía es modelada por una segunda FDN en paralelo. Las respuestas al impulso de ambas FDN se superponen en gran medida, simulando la presencia de reverberación difusa desde el comienzo de la respuesta al impulso. Una característica particular de este reverberador es la reproducción de reflexiones de primer y segundo orden usando solo funciones de transferencia relacionadas con la cabeza (HRTF) para las direcciones de las reflexiones de primer orden, lo que permite reducir la complejidad computacional.
D3 describe un sistema acústico para un vehículo que incluye al menos una fuente adaptada para producir una señal de sonido de fuente y al menos un conjunto de al menos dos altavoces, cada uno de los altavoces estando adaptado para producir una señal de sonido asociada a él. El sistema incluye además un filtro que hace al menos dos operaciones de filtrado separadas de la señal de fuente para emitir al menos dos señales de sonido, cada una asociada con al menos uno de los altavoces, de manera que sean aproximadamente coherentes en fase y amplitud cuando sean percibidas por al menos uno de los oyentes posicionado en una ubicación predeterminada.
Sumario
En vista de lo anterior, la presente divulgación proporciona una solución para la generación de reverberación para la virtualización de auricular.
En un aspecto, una realización de ejemplo de la presente divulgación proporciona un método para generar uno o más componentes de una respuesta de impulso de sala binaural (BRIR) para la virtualización de auricular. En el método, se generan reflexiones controladas direccionalmente, donde las reflexiones controladas direccionalmente imparten una señal de percepción deseada a una señal de entrada de audio correspondiente a una ubicación de fuente de sonido, y luego al menos las reflexiones generadas se combinan para obtener uno o más componentes de la BRIR.
En otro aspecto, otra realización de ejemplo de la presente divulgación proporciona un sistema para generar uno o más componentes de una respuesta de impulso de sala binaural (BRIR) para la virtualización de auricular. El sistema incluye una unidad de generación de reflexión implementada como una unidad de filtrado y una unidad de combinación. La unidad de generación de reflexiones está configurada para generar reflexiones controladas direccionalmente que imparten una señal de percepción deseada a una señal de entrada de audio correspondiente a una ubicación de fuente de sonido. La unidad de combinación está configurada para combinar al menos las reflexiones generadas para obtener uno o más componentes de la BRIR.
A través de la siguiente descripción, se apreciará que, de acuerdo con las realizaciones de ejemplo de la presente divulgación, se genera una respuesta BRIR tardía combinando múltiples reflexiones sintéticas de la sala de direcciones que se seleccionan para mejorar la ilusión de una fuente de sonido virtual en una ubicación determinada en el espacio. El cambio en la dirección de la reflexión imparte una IACC a la respuesta tardía simulada que varía en función del tiempo y la frecuencia. La IACC afecta principalmente a la percepción humana de la externalización y el espacio de la fuente de sonido. Los expertos en la técnica pueden apreciar que en las realizaciones de ejemplo divulgadas en el presente documento, ciertos patrones de reflexión direccional pueden transmitir una sensación natural de externalización al tiempo que se conserva la fidelidad de audio en relación con los métodos de la técnica anterior. Por ejemplo, el patrón direccional puede tener una forma oscilatoria (balanceo). Además, al introducir un componente direccional difuso dentro de un rango predeterminado de azimuts y elevaciones, se imparte un grado de aleatoriedad a las reflexiones, lo que puede aumentar la sensación de naturalidad. De esta forma, el método pretende capturar la esencia de una sala física sin sus limitaciones.
Se puede realizar un virtualizador completo combinando varias BRIR, una para cada fuente de sonido virtual (altavoz fijo u objeto de audio). De acuerdo con el primer ejemplo anterior, cada fuente de sonido tiene una respuesta tardía única con atributos direccionales que refuerzan la ubicación de la fuente de sonido. Una ventaja clave de este enfoque es que se puede utilizar una relación directa/reverberación (DR) más alta para lograr el mismo sentido de externalización que los métodos convencionales de reverberación sintética. El uso de relaciones de DR más altas conduce a menos artefactos audibles en la señal binaural reproducida, como coloración espectral y mancha de tiempo.
Descripción de dibujos
A través de la siguiente descripción detallada con referencia a los dibujos adjuntos, los objetivos, características y ventajas anteriores y otros de las realizaciones de la presente divulgación serán más comprensibles. En los dibujos, se ilustrarán varias realizaciones de ejemplo de la presente divulgación a modo de ejemplo y no limitativo, en las que:
la figura 1 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular de acuerdo con una realización de ejemplo de la presente divulgación;
la figura 2 ilustra un diagrama de un patrón direccional predeterminado de acuerdo con una realización de ejemplo de la presente divulgación;
las figuras 3A y 3B ilustran diagramas de cambios de dirección aparentes breves a lo largo del tiempo para pares de BRIR bien y mal externalizadas para altavoces de canal izquierdo y derecho, respectivamente;
la figura 4 ilustra un diagrama de un patrón direccional predeterminado de acuerdo con otra realización de ejemplo de la presente divulgación;
la figura 5 ilustra un método para generar una reflexión en un punto de tiempo de ocurrencia dado de acuerdo con una realización de ejemplo de la presente divulgación;
la figura 6 es un diagrama de bloques de una red de retardo de retroalimentación general (FDN);
la figura 7 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular en un entorno FDN de acuerdo con otra realización de ejemplo de la presente divulgación;
la figura 8 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular en un entorno FDN de acuerdo con una realización de ejemplo adicional de la presente divulgación;
la figura 9 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular en un entorno FDN de acuerdo con otra realización de ejemplo adicional de la presente divulgación;
la figura 10 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular para múltiples canales u objetos de audio en un entorno FDN de acuerdo con una realización de ejemplo de la presente divulgación;
la figura 11 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular para múltiples canales u objetos de audio en un entorno FDN de acuerdo con otra realización de ejemplo de la presente divulgación;
la figura 12 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular para múltiples canales u objetos de audio en un entorno FDN de acuerdo con una realización de ejemplo adicional de la presente divulgación;
la figura 13 es un diagrama de bloques de un sistema de generación de reverberación para la virtualización de auricular para múltiples canales u objetos de audio en un entorno FDN de acuerdo con otra realización de ejemplo de la presente divulgación;
la figura 14 es un diagrama de flujo de un método para generar uno o más componentes de una BRIR de acuerdo con una realización de ejemplo de la presente divulgación; y
la figura 15 es un diagrama de bloques de un sistema informático de ejemplo adecuado para implementar realizaciones de ejemplo de la presente divulgación.
En todos los dibujos, los mismos símbolos de referencia o los correspondientes se refieren a partes iguales o correspondientes.
Descripción de realizaciones de ejemplo
Los principios de la presente divulgación se describirán ahora con referencia a varias realizaciones de ejemplo ilustradas en los dibujos. Debe apreciarse que la descripción de estas realizaciones es solo para permitir que los expertos en la técnica comprendan mejor e implementen adicionalmente la presente divulgación, no pretender limitar el alcance de la presente divulgación de ninguna manera.
En los dibujos adjuntos, se ilustran varias realizaciones de la presente divulgación en diagramas de bloques, diagramas de flujo y otros diagramas. Cada bloque en los diagramas de flujo o bloque puede representar un módulo, un programa o una parte del código, que contiene una o más instrucciones ejecutables para realizar funciones lógicas específicas. Aunque estos bloques se ilustran en secuencias particulares para realizar los pasos de los métodos, es posible que no necesariamente se realicen estrictamente de acuerdo con la secuencia ilustrada. Por ejemplo, pueden realizarse en secuencia inversa o simultáneamente, dependiendo de la naturaleza de las operaciones respectivas. También debe tenerse en cuenta que los diagramas de bloques y/o cada bloque en los diagramas de flujo y una combinación de los mismos pueden implementarse mediante un sistema basado en hardware dedicado para realizar funciones/operaciones específicas o mediante una combinación de hardware dedicado e instrucciones informáticas.
Como se usa en el presente documento, el término "incluye" y sus variantes han de leerse como términos abiertos que significan "incluye, entre otros". El término "o" ha de leerse como " y/o" a menos que el contexto indique claramente lo contrario. El término "basado en" ha de leerse como "basado al menos en parte en". El término "una sola realización de ejemplo" y "una realización de ejemplo" ha de leerse como "al menos una realización de ejemplo". El término "otra realización" debe leerse como "al menos otra realización".
Como se usa en el presente documento, el término "objeto de audio" u "objeto" se refiere a un elemento de audio individual que existe durante un período de tiempo definido en el campo de sonido. Un objeto de audio puede ser dinámico o estático. Por ejemplo, un objeto de audio puede ser humano, animal o cualquier otro objeto que sirva como fuente de sonido en el campo de sonido. Un objeto de audio puede tener metadatos asociados que describen la ubicación, velocidad, trayectoria, altura, tamaño y/o cualquier otro aspecto del objeto de audio. Como se usa en el presente documento, el término "capa de audio" o "capa" se refiere a uno o más canales de audio que están destinados a ser reproducidos en ubicaciones fijas predefinidas. Como se usa en el presente documento, el término "BRIR" se refiere a las respuestas de impulso de sala binaurales (BRIR) con cada canal u objeto de audio, que caracteriza las transformaciones de señales de audio desde un punto específico en un espacio a los oídos del oyente en un entorno acústico específico. En términos generales, una BRIR se puede dividir en tres regiones. La primera región se denomina respuesta directa, que representa la respuesta al impulso desde un punto en el espacio anecoico hasta la entrada del canal auditivo. Esta respuesta directa suele tener una duración de alrededor de 5 ms o menos, y se conoce más comúnmente como la función de transferencia relacionada con la cabeza (HRTF). La segunda región se conoce como reflexiones tempranas, que contiene reflexiones de sonido de objetos que están más cerca de la fuente de sonido y un oyente (por ejemplo, suelo, paredes de la sala, muebles). La tercera región se llama respuesta tardía, que incluye una mezcla de reflexiones de orden superior con diferentes intensidades y desde una variedad de direcciones. Esta tercera región a menudo se describe mediante parámetros estocásticos como la densidad de pico, la densidad del modelo o el tiempo de caída de energía debido a sus complejas estructuras. El sistema auditivo humano ha evolucionado para responder a las señales perceptivas transmitidas en las tres regiones. Las reflexiones tempranas tienen un efecto modesto en la dirección percibida de la fuente, pero una influencia más fuerte en el timbre percibido y la distancia de la fuente, mientras que la respuesta tardía influye en el entorno percibido en el que se encuentra la fuente de sonido. Otras definiciones, explícitas e implícitas, pueden incluirse a continuación.
Como se mencionó anteriormente, en un diseño de virtualizador derivado de una sala o modelo de sala, las BRIR tienen propiedades determinadas por las leyes de la acústica y, por lo tanto, las reproducciones binaurales producidas a partir de ellas contienen una variedad de señales perceptivas. Dichas BRIR pueden modificar la señal que se reproducirá a través de auriculares de formas deseables e indeseables. En vista de esto, en las realizaciones de la presente divulgación, se proporciona una solución novedosa de generación de reverberación para la virtualización de auricular al eliminar algunas de las limitaciones impuestas por una sala física o un modelo de sala. Uno de los objetivos de la solución propuesta es impartir de manera controlada solo las señales de percepción deseadas en una respuesta sintética temprana y tardía. Las señales de percepción deseadas son aquellas que transmiten a los oyentes una ilusión convincente de ubicación y amplitud con un mínimo de deficiencias audibles (efectos secundarios). Por ejemplo, la impresión de distancia desde la cabeza del oyente a una fuente de sonido virtual en una ubicación específica puede mejorarse al incluir reflexiones de la sala en la porción temprana de la respuesta tardía que tenga la dirección de llegada desde un rango limitado de azimuts/elevaciones en relación con la fuente de sonido. Esto imparte una característica IACC específica que conduce a una sensación natural del espacio al tiempo que minimiza la coloración espectral y las manchas de tiempo. La invención tiene como objetivo proporcionar una experiencia de oyente más convincente que el estéreo convencional al agregar una sensación de espacio natural y al mismo tiempo preservar sustancialmente la intención artística del mezclador de sonido original.
A continuación, se hará referencia a las figuras 1 a 9 para describir algunas realizaciones de ejemplo de la presente divulgación. Sin embargo, debe apreciarse que estas descripciones se realizan únicamente con fines ilustrativos y la presente divulgación no se limita a las mismas.
En primer lugar se hace referencia a la figura 1, que muestra un diagrama de bloques de un sistema 100 de un canal para la virtualización de auricular de acuerdo con una realización de ejemplo de la presente divulgación. Como se muestra, el sistema 100 incluye una unidad 110 de generación de reflexión y una unidad 120 de combinación. La unidad 110 de generación puede implementarse, por ejemplo, mediante una unidad 110 de filtrado.
La unidad 110 de filtrado está configurada para convolucionar una BRIR que contiene reflexiones controladas direccionalmente que imparten una señal de percepción deseada con una señal de entrada de audio correspondiente a una ubicación de fuente de sonido. La salida es un conjunto de señales intermedias de oído izquierdo y derecho. La unidad 120 de combinación recibe las señales intermedias de los oídos izquierdo y derecho de la unidad 110 de filtrado y las combina para formar una señal de salida binaural.
Como se mencionó anteriormente, las realizaciones de la presente divulgación son capaces de simular la respuesta BRIR, especialmente las reflexiones tempranas y la respuesta tardía para reducir la coloración espectral y las manchas de tiempo mientras se preserva la naturalidad. En realizaciones de la presente divulgación, esto se puede lograr impartiendo señales direccionales en la respuesta BRIR, especialmente las reflexiones tempranas y la respuesta tardía de una manera controlada. En otras palabras, el control de dirección se puede aplicar a estas reflexiones. En particular, las reflexiones se pueden generar de tal manera que tengan un patrón direccional deseado, en el que las direcciones de llegada tengan un cambio deseado en función del tiempo.
Las realizaciones de ejemplo divulgadas en el presente documento proporcionan que se puede generar una respuesta BRIR deseable usando un patrón direccional predeterminado para controlar las direcciones de reflexión. En particular, el patrón direccional predeterminado puede seleccionarse para impartir señales de percepción que mejoran la ilusión de una fuente de sonido virtual en una ubicación determinada en el espacio. Como ejemplo, el patrón direccional predeterminado puede tener una función de balanceo. Para una reflexión en un momento dado, la función de balanceo determina total o parcialmente la dirección de llegada (azimut y/o elevación). El cambio en las direcciones de reflexión crea una respuesta BRIR simulada con IACC que varía en función del tiempo y la frecuencia. Además de la ITD, la ILD, la relación de energía DR y el tiempo de reverberación, la IACC es también una de las principales señales de percepción que afectan la impresión del oyente sobre la externalización y la amplitud de la fuente de sonido. Sin embargo, no es bien conocido en la técnica qué patrones evolutivos específicos de IACC a lo largo del tiempo y la frecuencia son más efectivos para transmitir una sensación de espacio tridimensional mientras se preserva la intención artística del mezclador de sonido tanto como sea posible. Las realizaciones de ejemplo descritas en el presente documento proporcionan que los patrones de reflexiones direccionales específicos, tales como la forma de balanceo de las reflexiones, pueden transmitir una sensación natural de externalización mientras se preserva la fidelidad de audio en relación con los métodos convencionales.
La figura 2 ilustra un patrón direccional predeterminado de acuerdo con una realización de ejemplo de la presente divulgación. En la figura 2 se ilustra una trayectoria de balanceo de reflexiones sintetizadas, en la que cada punto representa un componente de reflexión con una dirección azimutal asociada, y la dirección del sonido de la primera señal de llegada está indicada por el cuadrado negro en el origen del tiempo. De la figura 2, está claro que las direcciones de reflexión se alejan de la dirección de la primera señal de llegada y oscilan a su alrededor, mientras que la densidad de reflexión generalmente aumenta con el tiempo.
En las BRIR medidas en salas con buena externalización, los balanceos direccionales fuertes y bien definidos se asocian con una buena externalización. Esto se puede ver en las figuras 3A y 3B, que ilustran ejemplos de los cambios de dirección aparentes cuando los segmentos de 4 ms de BRIR con buena y mala externalización se escuchan mediante auricular.
De las figuras 3A y 3B, se puede ver claramente que una buena externalización está asociada con fuertes balanceos direccionales. Los balanceos direccionales a corto plazo existen no solo en el plano azimutal sino también en el plano medial. Esto es cierto porque las reflexiones en una sala convencional de 6 superficies son un fenómeno tridimensional, no solo bidimensional. Por lo tanto, las reflexiones en un intervalo de tiempo de 10 a 50 ms también pueden producir balanceos direccionales a corto plazo en la elevación. Por lo tanto, la inclusión de estos balanceos en pares de BRIR se puede usar para aumentar la externalización.
La aplicación práctica de balanceos direccionales a corto plazo para todas las posibles direcciones de la fuente en un entorno acústico se puede lograr mediante un número finito de balanceos direccionales para usar en la generación de un par de BRIR con buena externalización. Esto se puede hacer, por ejemplo, dividiendo la esfera de todas las direcciones verticales y horizontales para las direcciones del sonido de primera llegada en un número finito de regiones. Una fuente de sonido procedente de una región en particular se asocia con dos o más balanceos direccionales a corto plazo para que esa región genere un par de BRIR con buena externalización. Es decir, los balanceos se pueden seleccionar basándose en la dirección de la fuente de sonido virtual.
Basándose en los análisis de medición de la sala, se puede ver que las reflexiones del sonido se balancean típicamente primero en la dirección, pero rápidamente se vuelven isotrópicos, creando así un campo de sonido difuso. Por lo tanto, es útil incluir un componente difuso o estocástico para crear un buen par de BRIR externalizadas con un sonido natural. La adición de difusividad es una compensación entre el sonido natural, la externalización y el tamaño de la fuente enfocada. Demasiada difusividad puede crear una fuente de sonido muy amplia y con una definición direccional deficiente. Por otro lado, muy poca difusividad puede resultar en ecos no naturales provenientes de la fuente de sonido. Como resultado, es deseable un crecimiento moderado de la aleatoriedad en la dirección de la fuente, lo que significa que la aleatoriedad se controlará hasta cierto punto. En una realización de la presente divulgación, el rango direccional está limitado dentro de un rango de azimut predeterminado para cubrir una región alrededor de la dirección de la fuente original, lo que puede resultar en una buena compensación entre la naturalidad, el ancho de la fuente y la dirección de la fuente.
La figura 4 ilustra además un patrón direccional predeterminado de acuerdo con otra realización de ejemplo de la presente divulgación. Particularmente, en la figura 4 se ilustran direcciones de reflexión en función del tiempo para un ejemplo de balanceos direccionales azimutales a corto plazo y el componente difuso añadido para un canal central. Las direcciones de llegada de la reflexión emanan inicialmente de un pequeño rango de azimuts y elevaciones en relación con la fuente de sonido, y luego se amplían con el tiempo. Como se ilustra en la figura 4, el balanceo direccional de variación lenta de la figura 2 se combina con un componente de dirección estocástica (aleatoria) creciente para crear difusividad. El componente difuso como se ilustra en la figura 4 crece linealmente a ± 45 grados a 80 ms, y el rango completo de azimuts es solo ± 60 grados en relación con la fuente de sonido, en comparación con ± 180 grados en una sala rectangular de seis lados. El patrón direccional predeterminado también puede incluir una porción de reflexiones con dirección de llegada desde debajo del plano horizontal. Tal característica es útil para simular reflexiones del suelo que son importantes para el sistema auditivo humano para localizar fuentes de sonido horizontales delanteras en la elevación correcta.
En vista del hecho de que la adición del componente difuso introduce una mayor difusividad, las reflexiones resultantes y las direcciones asociadas para el par de BRIR como se ilustra en la figura 4 puede lograr una mejor externalización. De hecho, de forma similar a los balanceos, el componente difuso también se puede seleccionar basándose en la dirección de la fuente de sonido virtual. De esta manera, es posible generar una BRIR sintética que imparte el efecto de percepción de mejorar el sentido del oyente de la ubicación y externalización de la fuente de sonido.
Estos balanceos direccionales a corto plazo generalmente hacen que los sonidos en cada oído tengan la parte real de IACC dependiente de la frecuencia para tener fuertes variaciones sistemáticas en un intervalo de tiempo (por ejemplo, 10-50 ms) antes de que las reflexiones se vuelvan isotrópicas y uniformes en la dirección como se mencionó anteriormente. A medida que la BRIR evoluciona más tarde en el tiempo, los valores reales de IACC por encima de aproximadamente 800 Hz caen debido al aumento de la difusividad del campo de sonido. Por lo tanto, la parte real de IACC derivada de las respuestas de oído izquierdo y derecho varía en función de la frecuencia y el tiempo. El uso de la parte real dependiente de la frecuencia tiene la ventaja de que revela las características de correlación y anticorrelación y es una métrica útil para la virtualización.
De hecho, hay muchas características en la parte real de IACC que crean una fuerte externalización, pero la persistencia de las características de correlación que varían en el tiempo durante un intervalo de tiempo (por ejemplo, de 10 a 50 ms) puede indicar una buena externalización. Con realizaciones de ejemplo como se describe en el presente documento, puede producir la parte real de IACC con valores más altos, lo que significa una mayor persistencia de correlación (por encima de 800 Hz y que se extiende a 90 ms) que la que ocurriría en una sala física. Por tanto, con las realizaciones de ejemplo que se describen en el presente documento, se pueden obtener mejores virtualizadores.
En una realización de la presente divulgación, los coeficientes para la unidad 110 de filtrado se pueden generar usando un generador de eco estocástico para obtener las reflexiones tempranas y la respuesta tardía con las características de transición descritas anteriormente. Como se ilustra en la figura 1 la unidad de filtrado puede incluir retardadores 111-1, ..., 111-i, ..., 111-k (denominados colectivamente 111 en adelante) y filtros 112-0, 112-1, ..., 112 -i, ... 112-k (denominado colectivamente 112 en adelante). Los retardadores 111 pueden estar representados por Z' ni, donde i = 1 a k. Los coeficientes para los filtros 112 pueden derivarse, por ejemplo, de un conjunto de datos de HRTF, donde cada filtro proporciona señales de percepción correspondientes a una reflexión de una dirección predeterminada tanto para el oído izquierdo como para el oído derecho. Como se ilustra en la figura 1, en cada línea de señal, hay un par de retardador y filtro, que podría generar una señal intermedia (por ejemplo, reflexión) desde una dirección conocida en un tiempo predeterminado. La unidad 120 de combinación incluye, por ejemplo, un adicionador izquierdo 121-L y un adicionador derecho 121-R. Todas las señales intermedias de oído izquierdo se mezclan en el adicionador izquierdo 121-L para producir la señal binaural izquierda. De manera similar, todas las señales intermedias de oído derecho se mezclan en el adicionador derecho 121-R para producir la señal binaural correcta. De esta manera, se puede generar reverberación a partir de las reflexiones generadas con el patrón direccional predeterminado, junto con la respuesta directa generada por el filtro 112-0 para producir la señal de salida binaural izquierda y derecha.
En una realización de la presente divulgación, las operaciones del generador de eco estocástico se pueden implementar como sigue. Primero, en cada punto de tiempo a medida que el generador de eco estocástico progresa a lo largo del eje de tiempo, primero se toma una decisión binaria estocástica independiente para decidir si se debe generar una reflexión en el instante de tiempo dado. La probabilidad de una decisión positiva aumenta con el tiempo, preferiblemente de forma cuadrática, para aumentar la densidad del eco. Es decir, los puntos de tiempo de ocurrencia de las reflexiones se pueden determinar estocásticamente, pero al mismo tiempo, la determinación se realiza dentro de una restricción de distribución de densidad de eco predeterminada para lograr una distribución deseada. El resultado de la decisión es una secuencia de los puntos de tiempo de ocurrencia de las reflexiones (también llamadas posiciones de eco), rn, n2, ..., nk, que responden al tiempo de retardo de los retardadores 111 como se ilustra en la figura 1. Luego, durante un momento, si se determina que se genera una reflexión, se generará un par de respuestas de impulso para el oído izquierdo y el oído derecho de acuerdo con la dirección deseada. Esta dirección se puede determinar basándose en una función predeterminada que representa las direcciones de llegada en función del tiempo, como una función de balanceo. La amplitud de la reflexión puede ser un valor estocástico sin ningún otro control. Este par de respuestas de impulso se considerará como la BRIR generada en ese instante de tiempo. En la solicitud PCT WO2015103024 publicada el 9 de julio de 2015, describe un generador de eco estocástico en detalle.
Con fines ilustrativos, a continuación se describirá un proceso de ejemplo para generar una reflexión en un punto de tiempo de ocurrencia dado con referencia a la figura 5 para permitir que los expertos en la técnica comprendan completamente e además implementen la solución propuesta en la presente divulgación.
La figura 5 ilustra un método 500 para generar una reflexión en un punto de tiempo de ocurrencia dado de acuerdo con una realización de ejemplo de la presente divulgación. Como se ilustra en la figura 5, el método 500 se introduce en el paso 510, donde se determina una dirección de la reflexión dDIR basándose en un patrón de dirección predeterminado (por ejemplo, una función de patrón de dirección) y el punto de tiempo de ocurrencia dado. Luego, en el paso 520, se determina la amplitud de la reflexión dAMP, que puede ser un valor estocástico. A continuación, en el paso 530 se obtienen filtros como las HRTF con la dirección deseada. Por ejemplo, HRTFl y HRTFr pueden obtenerse para el oído izquierdo y el oído derecho, respectivamente. En particular, las HRTF se pueden recuperar de un conjunto de datos de HRTF medido para direcciones particulares. El conjunto de datos de HRTF medido se puede formar midiendo las respuestas de HRTF fuera de línea para direcciones de medición particulares. De esta manera, es posible seleccionar una HRTF con la dirección deseada del conjunto de datos de HRTF durante la generación de la reflexión. Las HRTF seleccionadas corresponden a los filtros 112 en las respectivas líneas de señal, como se ilustra en la figura 1.
En el paso 540, se pueden determinar las amplitudes medias máximas de las HRTF para el oído izquierdo y el oído derecho. Específicamente, la amplitud media de las HRTF recuperadas de oído izquierdo y de oído derecho se puede calcular primero respectivamente y luego se determina además la máxima de las amplitudes medias de las HRTF de oído izquierdo y derecho, que se puede representar como entre otros:
Figure imgf000008_0001
A continuación, en el paso 550, se modifican las HRTF para los oídos izquierdo y derecho. En particular, las amplitudes medias máximas de las HRTF tanto para el oído izquierdo como para el derecho se modifican de acuerdo con la amplitud determinada dAMP. En una realización de ejemplo de la presente divulgación, se puede modificar como, entre otros:
hrtflw ÜAh1p
iM = h r t f l
A m p Uax L
(Ec. 2A)
HRTFjtjM = Am Úa
p m
y p H R T F a
Maz
(Ec. 2B)
Como resultado, se pueden obtener dos reflexiones con un componente direccional deseado para el oído izquierdo y el oído derecho respectivamente en un punto de tiempo dado, que se emiten desde los filtros respectivos como se ilustra en la figura 1. La HRTFlm resultante se mezcla en la BRlR de oído izquierdo como una reflexión del oído izquierdo, mientras que la HRTFrm se mezcla en la BRIR de oído derecho como una reflexión del oído derecho. El proceso de generar y mezclar reflexiones en la BRIR para crear una reverberación sintética continúa hasta que se alcanza la longitud deseada de la BRIR. La BRIR final incluye una respuesta directa para los oídos izquierdo y derecho, seguida de la reverberación sintética.
En las realizaciones de la presente divulgación divulgadas anteriormente, las respuestas de HRTF se pueden medir fuera de línea para direcciones de medición particulares para formar un conjunto de datos de HRTf . Por tanto, durante la generación de reflexiones, las respuestas de HRTF pueden seleccionarse del conjunto de datos de HRTF medidos de acuerdo con la dirección deseada. Dado que una respuesta de HRTF en el conjunto de datos de HRTF representa una respuesta de HRTF para una señal de impulso unitaria, la HRTF seleccionada será modificada por la amplitud determinada dAMP para obtener la respuesta adecuada para la amplitud determinada. Por lo tanto, en esta realización de la presente divulgación, las reflexiones con la dirección deseada y la amplitud determinada se generan seleccionando las HRTF adecuadas basándose en la dirección deseada de los conjuntos de datos de HRTF y modificando adicionalmente las HRTF de acuerdo con las amplitudes de las reflexiones.
Sin embargo, en otra realización de la presente divulgación, las HRTF para los oídos izquierdo y derecho HRTFl y HRTFr se puede determinar basándose en un modelo de cabeza esférica en lugar de seleccionar de un conjunto de datos de HRTF medidos. Es decir, las HRTF se pueden determinar basándose en la amplitud determinada y un modelo de cabeza predeterminado. De esta manera, los esfuerzos de medición se pueden ahorrar significativamente.
En una realización adicional de la presente divulgación, las HRTF para los oídos izquierdo y derecho HRTFl y HRTFr pueden ser reemplazadas por un par de impulsos con señales auditivas similares (por ejemplo, señales auditivas de diferencia de tiempo interaural (ITD) y diferencia de nivel interaural (ILD)). Es decir, se pueden generar respuestas de impulso para dos oídos basándose en la dirección deseada y la amplitud determinada en el punto de tiempo de ocurrencia dado y la ITD y la ILD de banda ancha de un modelo de cabeza esférica predeterminado. La ITD y la ILD entre el par de respuesta al impulso se pueden calcular, por ejemplo, directamente basándose en HRTFl y HRTFr. O, alternativamente, la ITD y la ILD entre el par de respuesta al impulso se pueden calcular basándose en un modelo de cabeza esférica predeterminado. En general, se puede aplicar un par de filtros de paso total, particularmente filtros de paso total (APF) de múltiples etapas, a los canales izquierdo y derecho de la reverberación sintética generada como operación final del generador de eco. De esta manera, es posible introducir efectos de difusión y descorrelación controlados en las reflexiones y así mejorar la naturalidad de las reproducciones binaurales producidos por el virtualizador.
Aunque se describen métodos específicos para generar una reflexión en un instante de tiempo dado, debe apreciarse que la presente divulgación no se limita a los mismos; en cambio, cualquiera de los otros métodos apropiados es posible para crear un comportamiento de transición similar. Como otro ejemplo, también es posible generar una reflexión con una dirección deseada mediante, por ejemplo, un modelo de imagen.
Al progresar a lo largo del eje del tiempo, el generador de reflexión puede generar reflexiones para una BRIR con direcciones de llegada controladas en función del tiempo.
En otra realización de la presente divulgación, se pueden generar múltiples conjuntos de coeficientes para la unidad 110 de filtrado a fin de producir una pluralidad de BRIR candidatas, y luego se puede realizar una evaluación de rendimiento basada en la percepción (tal como planitud espectral, grado de coincidencia con una característica de sala predeterminada, etc.), por ejemplo, basándose en una función de objetivo adecuadamente definida. Las reflexiones de la BRIR con una característica óptima se seleccionan para su uso en la unidad 110 de filtrado. Por ejemplo, las reflexiones con características de reflexión temprana y respuesta tardía que representan una compensación óptima entre los diversos atributos de rendimiento de BRIR pueden seleccionarse como reflexiones finales. Mientras que en otra realización de la presente divulgación, se pueden generar múltiples conjuntos de coeficientes para la unidad 110 de filtrado hasta que se imparta una señal de percepción deseable. Es decir, la métrica de percepción deseable se establece de antemano y, si se satisface, el generador de eco estocástico detendrá sus operaciones y emitirá las reflexiones resultantes.
Por lo tanto, en las realizaciones de la presente divulgación, se proporciona una solución novedosa para la reverberación para la virtualización de auricular, en particular, una solución novedosa para diseñar la reflexión temprana y las porciones reverberantes de las respuestas de impulso de sala binaurales (BRIR) en virtualizadores de auricular. Para cada fuente de sonido, se usará una respuesta tardía única, dependiente de la dirección, y la reflexión temprana y la respuesta tardía se generan combinando múltiples reflexiones sintéticas de la sala con direcciones de llegada controladas direccionalmente en función del tiempo. Al aplicar un control de dirección en las reflexiones en lugar de usar reflexiones medidas basándose en una sala física o modelo de cabeza esférica, es posible simular respuestas BRIR que imparten señales de percepción deseadas mientras se minimizan los efectos secundarios. En algunas realizaciones de la presente divulgación, el patrón direccional predeterminado se selecciona de modo que se mejore la ilusión de una fuente de sonido virtual en una ubicación dada en el espacio. Particularmente, el patrón direccional predeterminado puede ser, por ejemplo, una forma de balanceo con un componente difuso adicional dentro de un rango de azimut predeterminado. El cambio en la dirección de la reflexión imparte una IACC variable en el tiempo, que proporciona más señales de percepción primarias y, por lo tanto, transmite una sensación natural de externalización al tiempo que conserva la fidelidad del audio. De esta forma, la solución podría capturar la esencia de una sala física sin sus limitaciones.
Además, la solución propuesta en el presente documento soporta la virtualización binaural de material de programa de audio tanto basado en canales como basado en objetos usando la convolución directa o los métodos más eficientes desde el punto de vista computacional. La BRIR para una fuente de sonido fija se puede diseñar fuera de línea simplemente combinando la respuesta directa asociada con una respuesta tardía dependiente de la dirección. La BRIR para un objeto de audio se puede construir sobre la marcha durante la reproducción de auriculares combinando la respuesta directa variable en el tiempo con las reflexiones tempranas y la respuesta tardía derivada de la interpolación de múltiples respuestas tardías de ubicaciones cercanas invariantes en el tiempo en el espacio.
Además, para implementar la solución propuesta de una manera computacionalmente eficiente, la solución propuesta también se puede realizar en una red de retardo de retroalimentación (FDN), que se describirá a continuación con referencia a las figuras 6 a 8.
Como se mencionó, en los virtualizadores de auricular convencionales, la reverberación de las BRIR se divide comúnmente en dos partes: las reflexiones tempranas y la respuesta tardía. Esta separación de las BRIR permite que los modelos dedicados simulen las características de cada parte de la BRIR. Se sabe que las reflexiones tempranas son escasas y direccionales, mientras que la respuesta tardía es densa y difusiva. En tal caso, las reflexiones tempranas se pueden aplicar a una señal de audio usando un banco de líneas de retardo, cada una seguida de convolución con el par de HRTF correspondiente a la reflexión asociada, mientras que la respuesta tardía se puede implementar con una o más redes de retardo de retroalimentación (FDN). La FDN se puede implementar usando múltiples líneas de retardo interconectadas por un circuito de retroalimentación con una matriz de retroalimentación. Esta estructura se puede usar para simular las características estocásticas de la respuesta tardía, en particular el aumento de la densidad del eco a lo largo del tiempo. Es computacionalmente más eficiente en comparación con los métodos deterministas como el modelo de imagen y, por lo tanto, se usa comúnmente para derivar la respuesta tardía. Con fines ilustrativos, la figura 6 ilustra un diagrama de bloques de una red de retardo de retroalimentación general en la técnica anterior.
Como se ilustra en la figura 6, el virtualizador 600 incluye una FDN con tres líneas de retardo generalmente indicadas por 611, interconectadas por una matriz 612 de retroalimentación. Cada una de las líneas 611 de retardo podría generar una versión retardada de la señal de entrada. Las salidas de las líneas 611 de retardo se enviarían a la matriz 621 de mezcla para formar la señal de salida y al mismo tiempo también se alimentarían a la matriz 612 de retroalimentación, y las señales de retroalimentación emitidas desde la matriz de retroalimentación se mezclarían a su vez con la siguiente trama de la señal de entrada en los adicionadores 613-1 a 613-3. Cabe señalar que solo las respuestas tempranas y tardías se envían a la FDN y pasan por las tres líneas de retardo, y la respuesta directa se envía a la matriz de mezcla directamente y no a la fDn y, por lo tanto, no es parte de la FDN.
Sin embargo, uno de los inconvenientes de la respuesta temprana-tardía radica en una transición repentina de la respuesta temprana a la respuesta tardía. Es decir, las BRIR serán direccionales en la respuesta temprana, pero de repente cambia a una respuesta tardía densa y difusiva. Sin duda, esto es diferente de una BRIR real y afectaría la calidad de percepción de la virtualización binaural. Por tanto, es deseable que la idea propuesta en la presente divulgación pueda incorporarse en la FDN, que es una estructura común para simular la respuesta tardía en un virtualizador de auricular. Por lo tanto, se proporciona otra solución a continuación, que se realiza agregando un banco de filtros HRTF paralelos frente a una red de retardo de retroalimentación (FDN). Cada filtro HRTF genera la respuesta de oído izquierdo y derecho correspondiente a la reflexión de una sala. Se hará una descripción detallada con referencia a la figura 7.
La figura 7 ilustra un virtualizador de auricular basado en FDN de acuerdo con una realización de ejemplo de la presente divulgación. A diferencia de la figura 6, en el virtualizador 700, hay otros filtros dispuestos como los filtros HRTF 714-0, 714-1, ... 714-i ... 714-k y líneas de retardo como las líneas 715-0, 715-1, 715-i, ... 715-k de retardo. Por lo tanto, la señal de entrada se retardará a través de las líneas 715-0, 715-1, 715-i, ... 715-k de retardo para emitir diferentes versiones retardadas de la señal de entrada, que luego son preprocesadas por filtros como los filtros HRTF. 714-0, 714-1, ... 714-i ... 714-k antes de entrar a la matriz 720 de mezcla o a la FDN, particularmente antes de que se agreguen las señales retroalimentadas a través de al menos una matriz de retroalimentación. En algunas realizaciones de la presente divulgación, el valor de retardo do(n) para la línea 715-0 de retardo, puede ser cero para guardar el almacenamiento de memoria. En otras realizaciones de la presente divulgación, el valor de retardo do(n) se puede establecer como un valor distinto de cero para controlar el retardo de tiempo entre el objeto y el oyente.
En la figura 7, y el tiempo de retardo de cada una de las líneas de retardo y los correspondientes filtros HRTF pueden determinarse basándose en el método que se describe en el presente documento. Además, requerirá un número menor de filtros (por ejemplo, 4, 5, 6, 7 u 8) y una parte de la respuesta tardía se genera a través de la estructura de la FDN. De esta manera, las reflexiones se pueden generar de una manera computacionalmente más eficiente. Al mismo tiempo, puede garantizar que:
• La parte temprana de la respuesta tardía contiene señales direccionales.
• Todas las entradas a la estructura FDN son direccionales, lo que permite que las salidas de la FDN sean direccionalmente difusivas. Dado que las salidas de la FDN ahora se crean mediante la suma de las reflexiones direccionales, es más similar a una generación BRIR del mundo real, lo que significa una transición suave desde las reflexiones direccionales y, por lo tanto, se aseguran las reflexiones difusivas.
• La dirección de la parte temprana de la respuesta tardía se puede controlar para tener una dirección de llegada predeterminada. A diferencia de las reflexiones tempranas generadas por el modelo de imagen, la dirección de la parte temprana de la respuesta tardía puede estar determinada por diferentes funciones direccionales predeterminadas que representan características de la parte temprana de la respuesta tardía. Como ejemplo, las funciones de balanceo mencionadas anteriormente se pueden emplear aquí para guiar el proceso de selección de los pares de HRTF (hi(n), 0<i<k)
Por tanto, en la solución ilustrada en la figura 7, las señales direccionales se imparten a la señal de entrada de audio controlando la dirección de la parte temprana de la respuesta tardía para que tengan una dirección de llegada predeterminada. En consecuencia, se logra una transición suave, que es de reflexiones totalmente direccionales (reflexiones tempranas que serán procesadas por el modelo explicado anteriormente) a reflexiones semidireccionales (la parte temprana de la respuesta tardía que tendrá la dualidad entre direccional y difusiva), y finalmente evoluciona a reflexiones completamente difusivas (el recordatorio de la respuesta tardía), en lugar de una dura transición direccional a difusiva de las reflexiones en la FDN general.
Se entenderá que, las líneas 715-0, 715-1, 715-i, ..., 715-k de retardo también se pueden construir en la FDN para eficiencia de implementación. Alternativamente, también se pueden tocar líneas de retardo (una cascada de múltiples unidades de retardo con filtros HRTF en la salida de cada una), para lograr la misma función que se muestra en la figura 7 con menos almacenamiento de memoria.
Además, la figura 8 ilustra además un virtualizador 800 de auricular basado en FDN de acuerdo con otra realización de ejemplo de la presente divulgación. La diferencia con el virtualizador de auricular como se ilustra en la figura 7 radica en que, en lugar de una matriz 712 de retroalimentación, se usan dos matrices 812L y 812R de retroalimentación para el oído izquierdo y el oído derecho, respectivamente. De esa manera, podría ser más eficiente computacionalmente. En cuanto al banco de líneas 811 de retardo, y adicionadores 813-1L a 813-kL, 813-1R a 813kR, 814-0 a 814-k, estos componentes son funcionalmente similares al banco de líneas 711 de retardo, y adicionadores 713-1L a 713-kL, 713-1R a 713kR, 714-0 a 714-k. Es decir, estos componentes funcionan de tal manera que se mezclan con la siguiente trama de la señal de entrada como se muestra en las figuras 7 y 8, respectivamente, como tales, su descripción detallada se omitirá con el propósito de simplificar. Además, las líneas 815-0, 815-1, 815-i, ... 815-k de retardo también funcionan de forma similar a las líneas 715-0, 715-1, 715-i, ... 715-k de retardo y por lo tanto se omite en el presente documento.
La figura 9 ilustra además un virtualizador 900 de auricular basado en FDN de acuerdo con una realización de ejemplo adicional de la presente divulgación. A diferencia del virtualizador de auricular como se ilustra en la figura7, en la figura 9, las líneas 915-0, 915-1, 915-i, ... 915-k de retardo y los filtros HRTF 914-0, 914-1, .. .914-i ... 914-k no están conectados con la FDN en serie, sino que están conectados con ella en paralelo. Es decir, la señal de entrada será retardada a través de las líneas 915-0, 915-1, 915-i, ... 915-k de retardo y será preprocesada por los filtros HRTF 914-0, 914-1, ... 914 -i ... 914-k y luego se envía a la matriz de mezcla, en la que las señales propuestas previamente se mezclarán con las señales que pasan por la FDN. Por lo tanto, las señales de entrada preprocesadas por los filtros HRTF no se envían a la red FDN sino que se envían directamente a la matriz de mezcla.
Cabe señalar que las estructuras ilustradas en las figuras 7 a 9 son totalmente compatibles con una variedad de formatos de entrada de audio que incluyen, entre otros, audio basado en canales y audio basado en objetos. De hecho, las señales de entrada pueden ser cualquiera de un solo canal de la señal de audio multicanal, una mezcla de la señal multicanal, un objeto de señal de audio de la señal de audio basada en objetos, una mezcla de la señal de audio basada en objetos o cualquier posible combinación de las mismas.
En el caso de múltiples canales u objetos de audio, cada canal o cada objeto puede disponerse con un virtualizador dedicado para procesar las señales de entrada. La figura 10 ilustra un sistema 1000 de virtualización de auricular para múltiples canales u objetos de audio de acuerdo con una realización de ejemplo de la presente divulgación. Como se ilustra en la figura10, las señales de entrada de cada canal u objeto de audio serán procesadas por un virtualizador separado como el virtualizador 700, 800 o 900. Las señales de salida izquierda de cada uno de los virtualizadores se pueden sumar para formar las señales de salida izquierda finales, y las señales de salida derecha de cada uno de los virtualizadores se pueden sumar para formar las señales de salida derecha finales.
El sistema 1000 de virtualización de auricular se puede usar especialmente cuando hay suficientes recursos informáticos; sin embargo, para aplicaciones con recursos informáticos limitados, se requiere otra solución ya que los recursos informáticos requeridos por el sistema 1000 serán inaceptables para estas aplicaciones. En tal caso, es posible obtener una mezcla de los múltiples canales u objetos de audio con sus correspondientes reflexiones antes de la FDN o en paralelo con la FDN. En otras palabras, los canales u objetos de audio con sus reflexiones correspondientes se pueden procesar y convertir en una sola señal de canal u objeto de audio.
La figura 11 ilustra un sistema 1100 de virtualización de auricular para múltiples canales u objetos de audio de acuerdo con otra realización de ejemplo de la presente divulgación. A diferencia de lo ilustrado en la figura 7, en el sistema 1100, se proporcionan m redes 1115-1 a 1115-m de filtro y retardo de reflexión y para m canales u objetos de audio. Cada red 1115-1, ... o 1115-m de filtro y retardo de reflexión incluye k 1 líneas de retardo y k 1 filtros HRTF, donde una línea de retardo y un filtro HRTF se usan para la respuesta directa y otras líneas de retardo y otros filtros HRTF se usan para las respuestas tempranas y tardías. Como se ilustra, para el canal u objeto 1de audio, una señal de entrada pasa por la primera red 1115-1 de filtro y retardo de reflexión, es decir, la señal de entrada se retarda primero a través de las líneas 1115-1,0, 1115-1,1 , 1115-1, i, ..., 1115-1, k de retardo y luego se filtran por los filtros HRTF 1114-1,0, 1114-1,1, ... 1114-1, i ... 1114-1, k; para el canal u objeto de audio m, una señal de entrada pasa por la m-ésima red 1115-m de filtro y retardo de reflexión y, es decir, la señal de entrada se retarda primero a través de las líneas 1115-m, 0, 1115-m, 1 , 1115-m, i, ..., 1115-m, k de retardo y luego se filtran por filtros HRTF 1114-m, 0, 1114-m, 1, ... 1114-m, i ... 1114-m , k. La señal de salida izquierda de cada uno de los filtros HRTF 1114­ 1,1, ..., 1114-1, i, ..., 1114-1, k, y 1114-1,0, en la red 1115 -1 de filtro y retardo de reflexión se combinan con las señales de salida izquierda de los filtros HRTF correspondientes en otras redes 1115-2 a 1115-m de filtro y retardo de reflexión, las señales de salida izquierda obtenidas para las respuestas tempranas y tardías se envían a los adicionadores en FDN y la señal de salida izquierda para las la respuesta directa se envía directamente a la matriz de mezcla. De manera similar, la señal de salida derecha de cada uno de los filtros HRTF 1114-1,1, ..., 1114-1, i, ..., 1114-1, k y 1114-1,0, en la red 1115-1 de filtro y retardo de reflexión se combinan con las señales de salida correctas de los filtros HRTF correspondientes en otras redes 1115-2 a 1115-m de filtro y retardo de reflexión y las señales de salida correctas obtenidas para las respuestas tempranas y tardías se envían a los adicionadores en FDN y la señal de salida correcta ya que la respuesta directa se envía directamente a la matriz de mezcla.
La figura 12 ilustra un sistema 1200 de virtualización de auricular para multicanal o multiobjeto de acuerdo con una realización de ejemplo adicional de la presente divulgación. A diferencia de la figura11, el sistema 1200 se construye basándose en la estructura del sistema 900 como se ilustra en la figura 9. En el sistema 1200, también se proporcionan m redes 1215-1 a 1215-m de filtro y retardo de reflexión para m canales u objetos de audio. Las redes 1215-1 a 1215-m de filtro y retardo de reflexión son similares a las ilustradas en la figura11 y la diferencia radica en que k 1 sumaban señales de salida izquierda y k 1 sumaban señales de salida derecha desde las redes 1215 -1 a 1215-m de filtro y retardo de reflexión y se envían directamente a la matriz 1221 de mezcla y ninguna de ellas se envía a la FDN; y al mismo tiempo, las señales de entrada de m canales u objetos de audio se suman para obtener una señal de audio de mezcla descendente que se proporciona a la FDN y se envía además a la matriz 1221 de mezcla. Así, en el sistema 1200, se proporciona una red de filtro y retardo de reflexión separada para cada canal u objeto de audio y la salida de las redes de filtro y retardo se suman y luego se mezclan con las de FDN. En tal caso, cada reflexión temprana aparecerá una vez en la BRIR final y no tendrá ningún efecto adicional en las señales de salida izquierda/derecha y la FDN proporcionará una salida puramente difusa.
Además, en la figura 12, los adicionadores entre las redes 1215-1 a 1215-m de filtro y retardo de reflexión y la matriz de mezcla también se pueden eliminar. Es decir, las salidas de las redes de filtro y retardo pueden proporcionarse directamente a la matriz 1221 de mezcla sin sumar y mezclarse con la salida de FDN.
En otra realización más de la presente divulgación, los canales u objetos de audio pueden mezclarse para formar una señal de mezcla con una dirección de fuente de dominio y, en tal caso, la señal de mezcla puede introducirse directamente en el sistema 700, 800 o 900 como una sola señal. A continuación, se hará referencia a la figura 13 para describir la realización, en la que la figura 13 ilustra un sistema 1300 de virtualización de auricular para múltiples canales u objetos de audio de acuerdo con otra realización de ejemplo de la presente divulgación.
Como se ilustra en la figura 13, los canales u objetos 1 a m de audio se envían primero a un módulo 1316 de análisis de dirección de fuente dominante y de mezcla descendente. En el módulo 1316 de análisis de la dirección de la fuente dominante y de mezcla descendente, los canales u objetos 1 a m de audio se mezclarán aún más en una señal de mezcla de audio mediante, por ejemplo, la suma y la dirección de la fuente dominante se puede analizar más a fondo en los canales u objetos 1 a m de audio para obtener la dirección de la fuente dominante de los canales u objetos 1 a m de audio. De esta manera, es posible obtener una señal de mezcla de audio de un solo canal con una dirección de fuente, por ejemplo, en azimut y elevación. La señal de mezcla de audio de un solo canal resultante se puede introducir en el sistema 700, 800 o 900 como un solo canal u objeto de audio.
La dirección de la fuente dominante se puede analizar en el dominio tiempo o en el dominio tiempo-frecuencia por medio de cualquier forma adecuada, como las que ya se usan en los métodos de análisis de la dirección de la fuente existentes. A continuación, con fines ilustrativos, se describirá un método de análisis de ejemplo en el dominio tiempo-frecuencia.
Como ejemplo, en el dominio tiempo-frecuencia, la fuente de sonido del canal u objeto de audio ai-ésimo se puede representar mediante un vector de fuente de sonido ai (n, k), que es una función de su azimut p¡, elevación r|¡; , y una variable de ganancia gi, y puede ser dada por:
TOS|4¡ ■ COST|¡'
fe) sinn¿ ■ cosrji
Figure imgf000012_0001
s in tii .
donde k y n son índices de frecuencia y trama temporal, respectivamente; gi (n, k) representa la ganancia para este canal u objeto; [0¡£¡^ ¡]t es el vector unitario que representa la ubicación del canal u objeto. El nivel de fuente global gs(n, k) aportado por todos los hablantes puede ser dado por:
Figure imgf000012_0002
La señal de mezcla descendente de un solo canal se puede crear aplicando la información de fase e* elegida del canal con la amplitud más alta para mantener la consistencia de fase, que puede estar dada por:
Figure imgf000012_0003
La dirección de la señal de mezcla descendente, presentada por su azimut 0(n, k) y elevación ^(n, k), puede ser dada por:
Figure imgf000013_0001
De esta manera, se puede determinar la dirección de la fuente de dominio para la señal de mezcla de audio. Sin embargo, se puede entender que la presente divulgación no se limita al método de análisis de ejemplo descrito anteriormente, y también es posible cualquier otro método adecuado, por ejemplo, aquellos en la frecuencia de tiempo.
Debe entenderse que los coeficientes de mezcla para la reflexión temprana en la matriz de mezcla pueden ser una matriz de identidad. La matriz de mezcla es para controlar la correlación entre la salida izquierda y la salida derecha. Se entenderá que todas estas realizaciones se pueden implementar tanto en el dominio tiempo como en el dominio frecuencia. Para una implementación en el dominio frecuencia, la entrada pueden ser parámetros para cada banda y la salida pueden ser parámetros procesados para la banda.
Además, se observa que la solución propuesta en el presente documento también puede facilitar la mejora del rendimiento del virtualizador binaural existente sin necesidad de ninguna modificación estructural. Esto se puede lograr obteniendo un conjunto óptimo de parámetros para el virtualizador de auricular basándose en la BRIR generada por la solución propuesta en el presente documento. El parámetro se puede obtener mediante un proceso óptimo. Por ejemplo, la BRIR creada por la solución propuesta en el presente documento (por ejemplo con respecto a las figuras 1 a 5) puede establecer una BRIR de destino, luego se usa el virtualizador de auricular de interés para generar la BRIR. Se calcula la diferencia entre la BRIR de destino y la BRIR generada. Luego se repite la generación de BRIR y el cálculo de la diferencia hasta cubrir todas las combinaciones posibles de los parámetros. Finalmente, se seleccionaría el conjunto óptimo de parámetros para el virtualizador de auricular de interés, que puede minimizar la diferencia entre la BRIR de destino y la BRIR generada. La medición de la similitud o diferencia entre dos BRIR se puede lograr extrayendo las señales de percepción de las BRIR. Por ejemplo, la relación de amplitud entre los canales izquierdo y derecho se puede emplear como medida del efecto de balanceo. De esta manera, con el conjunto óptimo de parámetros, incluso el virtualizador binaural existente podría lograr un mejor rendimiento de virtualización sin ninguna modificación estructural.
La figura 14 ilustra además un método para generar uno o más componentes de una BRIR de acuerdo con una realización de ejemplo de la presente divulgación.
Como se ilustra en la figura 14, el método 1400 se introduce en el paso 1410, donde se generan las reflexiones controladas direccionalmente, y donde las reflexiones controladas direccionalmente pueden impartir una señal de percepción deseada a una señal de entrada de audio correspondiente a una ubicación de fuente de sonido. Luego, en el paso 1420, al menos las reflexiones generadas se combinan para obtener uno o más componentes de la BRIR. En realizaciones de la presente divulgación, para evitar limitaciones de una sala física o modelo de sala particular, se puede aplicar un control de dirección a las reflexiones. La dirección de llegada predeterminada puede seleccionarse para mejorar la ilusión de una fuente de sonido virtual en una ubicación determinada en el espacio. En particular, la dirección predeterminada de llegada puede tener una forma de balanceo en la que las direcciones de reflexión evolucionan lentamente alejándose de una fuente de sonido virtual y oscilan hacia adelante y hacia atrás. El cambio en la dirección de la reflexión imparte una IACC variable en el tiempo a la respuesta simulada que varía en función del tiempo y la frecuencia, lo que ofrece una sensación natural de espacio al tiempo que conserva la fidelidad del audio. Especialmente, la dirección de llegada predeterminada puede incluir además un componente difuso estocástico dentro de un rango de azimuts predeterminado. Como resultado, introduce más difusividad, lo que proporciona una mejor externalización. Además, las formas de balanceo y/o el componente difuso estocástico se pueden seleccionar basándose en una dirección de la fuente de sonido virtual de modo que la externalización podría mejorarse aún más.
En una realización de la presente divulgación, durante la generación de reflexiones, los puntos de tiempo de ocurrencia respectivos de las reflexiones se determinan escolásticamente dentro de una restricción de distribución de densidad de eco predeterminada. Entonces se determinan las direcciones deseadas de las reflexiones basándose en los puntos de tiempo de ocurrencia respectivos y el patrón direccional predeterminado, y las amplitudes de las reflexiones en los puntos de tiempo de ocurrencia respectivos se determinan escolásticamente. Luego, basándose en los valores determinados, se generan las reflexiones con las direcciones deseadas y las amplitudes determinadas en los puntos de tiempo de ocurrencia respectivos. Debe entenderse que la presente divulgación no se limita al orden de operaciones descrito anteriormente. Por ejemplo, las operaciones para determinar las direcciones deseadas y determinar las amplitudes de las reflexiones se pueden realizar en una secuencia inversa o simultáneamente.
En otra realización de la presente divulgación, las reflexiones en los puntos de tiempo de ocurrencia respectivos pueden crearse seleccionando, a partir de conjuntos de datos de la función de transferencia relacionada con la cabeza (HRTF) medidos para direcciones particulares, las HRTF basadas en las direcciones deseadas en los puntos de tiempo de ocurrencia respectivos y después modificar las HRTF en función de las amplitudes de las reflexiones en los puntos de tiempo de ocurrencia respectivos
En una realización alternativa de la presente divulgación, la creación de reflexiones también puede implementarse determinando la HRTF basándose en las direcciones deseadas en los puntos de tiempo de ocurrencia respectivos y un modelo de cabeza esférica predeterminado y luego modificando las HRTF basándose en las amplitudes de las reflexiones en los puntos de tiempo de ocurrencia respectivos para obtener las reflexiones en los puntos de tiempo de ocurrencia respectivos.
En otra realización alternativa de la presente divulgación, la creación de reflexiones puede incluir generar respuestas de impulso para dos oídos basándose en las direcciones deseadas y las amplitudes determinadas en los puntos de tiempo de ocurrencia respectivos y la diferencia de tiempo interaural de banda ancha y la diferencia de nivel interaural de un modelo de cabeza esférica predeterminado. Además, las respuestas de impulso creadas para dos oídos se pueden filtrar aún más a través de filtros de paso total para obtener una mayor difusión y descorrelación. En una realización adicional de la presente divulgación, el método se opera en una red de retardo de retroalimentación. En tal caso, la señal de entrada se filtra a través de las HRTF, para controlar al menos las direcciones de la parte temprana de las respuestas tardías para cumplir con el patrón direccional predeterminado. De esta manera, es posible implementar la solución de una manera más eficiente computacionalmente.
Además, se realiza un proceso óptimo. Por ejemplo, se puede repetir la generación de reflexiones para obtener una pluralidad de grupos de reflexiones y luego se puede seleccionar uno de la pluralidad de grupos de reflexiones que tienen una característica de reflexión óptima como las reflexiones para la entrada de señales. O alternativamente, la generación de reflexiones puede repetirse hasta que se obtenga una característica de reflexión predeterminada. De esta manera, es posible garantizar además que se obtengan reflexiones con la característica de reflexión deseable. Puede entenderse que, con el propósito de simplificar, el método ilustrado en la figura 14 se describe brevemente; para una descripción detallada de las respectivas operaciones, se puede encontrar en la descripción correspondiente con referencia a las figuras 1 a 13.
Se puede apreciar que aunque en el presente documento se describen realizaciones específicas de la presente divulgación, esas realizaciones solo se dan con fines ilustrativos y la presente divulgación no se limita a las mismas. Por ejemplo, el patrón direccional predeterminado podría ser cualquier patrón apropiado que no sea la forma de balanceo o puede ser una combinación de múltiples patrones direccionales. Los filtros también pueden ser cualquier otro tipo de filtro en lugar de HRTF. Durante la generación de las reflexiones, las HRTF obtenidas pueden modificarse de acuerdo con la amplitud determinada de cualquier forma distinta a la ilustrada en las ecuaciones 2A y 2B. Los adicionadores 121-L y 121-R como se ilustra en la figura 1 se pueden implementar en un solo adicionador general en lugar de dos adicionadores. Además, la disposición del par de retardadores y filtros se puede cambiar a la inversa, lo que significa que podría requerir retardadores para el oído izquierdo y el derecho, respectivamente. Además, la matriz de mezcla como se ilustra en la figura 7 y 8 también se implementa posiblemente mediante dos matrices de mezcla separadas para el oído izquierdo y el oído derecho, respectivamente.
Además, también debe entenderse que los componentes de cualquiera de los sistemas 100, 700, 800, 900, 1000, 1100, 1200 y 1300 pueden ser módulos de hardware o módulos de software. Por ejemplo, en algunas realizaciones de ejemplo, el sistema puede implementarse parcial o completamente como software y/o firmware, por ejemplo, implementado como un producto de programa informático incorporado en un medio legible por computadora. Alternativa o adicionalmente, el sistema puede implementarse parcial o completamente basándose en hardware, por ejemplo, como un circuito integrado (IC), un circuito integrado de aplicación específica (ASIC), un sistema en chip (SOC) o una matriz de puertas programables en campo (FPGA).
La figura 15 muestra un diagrama de bloques de un sistema informático 1500 de ejemplo adecuado para implementar realizaciones de ejemplo de la presente divulgación. Como se muestra, el sistema informático 1500 incluye una unidad central 1501 de procesamiento (CPU) que es capaz de realizar varios procesos de acuerdo con un programa almacenado en una memoria 1502 de solo lectura (ROM) o un programa cargado desde una unidad 1508 de almacenamiento en una memoria 1503 de acceso (RAM) estocástica. En la RAM 1503, los datos requeridos cuando la CPU 1501 realiza los diversos procesos también se almacenan según sea necesario. La CPU 1501, la ROM 1502 y la RAM 1503 están conectadas entre sí a través de un bus 1504. Una interfaz 1505 de entrada/salida (I/O) también está conectada al bus 1504.
Los siguientes componentes están conectados a la interfaz 1505 de I/O: una unidad 1506 de entrada que incluye un teclado o un ratón; una unidad 1507 de salida que incluye una pantalla tal como un tubo de rayos catódicos (CRT) o una pantalla de cristal líquido (LCD), y un altavoz; la unidad 1508 de almacenamiento incluye un disco duro; y una unidad 1509 de comunicación que incluye una tarjeta de interfaz de red tal como una tarjeta LAN o un módem. La unidad 1509 de comunicación realiza un proceso de comunicación a través de la red, como Internet. También se conecta una unidad 1510 a la interfaz 1505 de E/S según sea necesario. Un medio extraíble 1511, tal como un disco magnético, un disco óptico, un disco magnetoóptico o una memoria de semiconductor, se monta en la unidad 1510 según sea necesario, de modo que se instale un programa informático leído desde el mismo en la unidad de almacenamiento 1508 según sea necesario.
Específicamente, de acuerdo con las realizaciones de ejemplo de la presente divulgación, los procesos descritos anteriormente pueden implementarse como programas de software informático. Por ejemplo, las realizaciones de la presente divulgación incluyen un producto de programa informático que incluye un programa informático incorporado de forma tangible en un medio legible por máquina, incluyendo el programa informático un código de programa para realizar métodos. En tales realizaciones, el programa informático puede descargarse y montarse desde la red a través de la unidad 1509 de comunicación, y/o instalarse desde el medio extraíble 1511.
Generalmente, varias realizaciones de ejemplo de la presente divulgación pueden implementarse en hardware o circuitos de propósito especial, software, lógica o cualquier combinación de los mismos. Algunos aspectos pueden implementarse en hardware, mientras que otros aspectos pueden implementarse en firmware o software que pueden ser ejecutados por un controlador, microprocesador u otro dispositivo informático. Si bien varios aspectos de las realizaciones de ejemplo de la presente divulgación se ilustran y describen como diagramas de bloques, diagramas de flujo o usando alguna otra representación pictórica, se apreciará que los bloques, aparatos, sistemas, técnicas o métodos descritos en el presente documento pueden implementarse en, como ejemplos no limitativos, hardware, software, firmware, circuitos o lógica de propósito especial, hardware o controlador de propósito general u otros dispositivos informáticos, o alguna combinación de los mismos.
Además, varios bloques mostrados en los diagramas de flujo pueden verse como pasos del método y/o como operaciones que resultan de la operación del código del programa informático, y/o como una pluralidad de elementos de circuito lógico acoplados construidos para llevar a cabo las funciones asociadas. Por ejemplo, las realizaciones de la presente divulgación incluyen un producto de programa informático que incluye un programa informático incorporado de forma tangible en un medio legible por máquina, conteniendo el programa informático códigos de programa configurados para llevar a cabo los métodos descritos anteriormente.
En el contexto de la divulgación, un medio legible por máquina puede ser cualquier medio tangible que pueda contener o almacenar un programa para su uso por o en conexión con un sistema, aparato o dispositivo de ejecución de instrucciones. El medio legible por máquina puede ser un medio de señal legible por máquina o un medio de almacenamiento legible por máquina. Un medio legible por máquina puede incluir, entre otros, un sistema, aparato o dispositivo electrónico, magnético, óptico, electromagnético, infrarrojo o semiconductor, o cualquier combinación adecuada de los anteriores. Ejemplos más específicos del medio de almacenamiento legible por máquina incluirían una conexión eléctrica que tiene uno o más cables, un disquete de computadora portátil, un disco duro, una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), una memoria de solo lectura programable borrable (EPROM o memoria Flash), una fibra óptica, un disco compacto portátil de memoria de solo lectura (CD-ROM), un dispositivo de almacenamiento óptico, un dispositivo de almacenamiento magnético o cualquier combinación adecuada de los anteriores.
El código de programa informático para llevar a cabo los métodos de la presente divulgación puede escribirse en cualquier combinación de uno o más lenguajes de programación. Estos códigos de programa informático pueden ser proporcionados a un procesador de una computadora de propósito general, computadora de propósito especial u otro aparato de procesamiento de datos programable, de modo que los códigos de programa, cuando son ejecutados por el procesador de la computadora u otro aparato de procesamiento de datos programable, causan la funciones/operaciones especificadas en los diagramas de flujo y/o diagramas de bloques a implementar. El código del programa puede ejecutarse completamente en una computadora, en parte en la computadora, como un paquete de software independiente, en parte en la computadora y en parte en una computadora remota o completamente en la computadora o servidor remoto o distribuido en una o más computadoras remotas y/o servidores.

Claims (4)

REIVINDICACIONES
1. - Un sistema (100) para la virtualización de auricular, que comprende:
una unidad (110) de filtrado configurada para convolucionar un par de respuestas de impulso de sala binaurales, BRIR, que contienen reflexiones controladas direccionalmente que imparten una señal de percepción deseada con una señal de entrada de audio correspondiente a una ubicación de fuente de sonido para producir un conjunto de señales intermedias de oído izquierdo y oído derecho;
un generador de eco estocástico configurado para generar coeficientes para la unidad de filtrado; y
una unidad (120) de combinación configurada para recibir las señales intermedias y combinarlas para formar una señal de salida binaural,
caracterizado porque las reflexiones controladas direccionalmente tienen un patrón direccional en el que una dirección de llegada cambia en función del tiempo para proporcionar al par de BRIR una correlación cruzada interaural, IACC, que varía en función del tiempo y la frecuencia y en la que el generador de eco estocástico agrega un componente de dirección estocástica.
2. - El sistema de la reivindicación 1, en el que la unidad (120) de combinación comprende un adicionador izquierdo (121-L) y un adicionador derecho (121-R), en el que todas las señales intermedias de oído izquierdo se mezclan en el adicionador izquierdo para producir una señal de salida binaural izquierda, y todas las señales intermedias de oído derecho se mezclan en el adicionador correcto para producir una señal de salida binaural correcta.
3. - Un método para la virtualización de auricular, que comprende:
convolucionar, usando una unidad de filtrado, un par de respuestas de impulso de sala binaurales, BRIR, que contienen reflexiones controladas direccionalmente que imparten una señal de percepción deseada con una señal de entrada de audio correspondiente a la ubicación de la fuente de sonido para producir un conjunto de señales intermedias de oído izquierdo y derecho;
generar coeficientes para la unidad de filtrado; y
combinar las señales intermedias para formar una señal de salida binaural,
caracterizado porque las reflexiones controladas direccionalmente tienen un patrón direccional en el que una dirección de llegada cambia en función del tiempo para proporcionar al par de BRIR una correlación cruzada interaural, IACC, que varía en función del tiempo y la frecuencia y en la que los coeficientes generados están agregando un componente de dirección estocástica.
4. - Un producto de programa informático que tiene instrucciones que, cuando se ejecutan mediante un dispositivo o sistema informático, hacen que dicho dispositivo o sistema informático realice el método de acuerdo con la reivindicación 3.
ES19170555T 2015-02-12 2016-02-11 Virtualización de auricular Active ES2898951T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510077020.3A CN105992119A (zh) 2015-02-12 2015-02-12 用于耳机虚拟化的混响生成
US201562117206P 2015-02-17 2015-02-17
CN201610081281 2016-02-05

Publications (1)

Publication Number Publication Date
ES2898951T3 true ES2898951T3 (es) 2022-03-09

Family

ID=56615717

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19170555T Active ES2898951T3 (es) 2015-02-12 2016-02-11 Virtualización de auricular

Country Status (9)

Country Link
US (6) US10149082B2 (es)
EP (3) EP3550859B1 (es)
JP (1) JP2018509864A (es)
CN (2) CN107258091B (es)
DK (1) DK3550859T3 (es)
ES (1) ES2898951T3 (es)
HU (1) HUE056176T2 (es)
PL (1) PL3550859T3 (es)
WO (1) WO2016130834A1 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3550859B1 (en) 2015-02-12 2021-09-15 Dolby Laboratories Licensing Corporation Headphone virtualization
WO2017019781A1 (en) * 2015-07-29 2017-02-02 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
US10932078B2 (en) 2015-07-29 2021-02-23 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
GB2546504B (en) * 2016-01-19 2020-03-25 Facebook Inc Audio system and method
EP3621318B1 (en) 2016-02-01 2021-12-22 Sony Group Corporation Sound output device and sound output method
EP3453190A4 (en) 2016-05-06 2020-01-15 DTS, Inc. SYSTEMS FOR IMMERSIVE AUDIO PLAYBACK
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
GB2558281A (en) * 2016-12-23 2018-07-11 Sony Interactive Entertainment Inc Audio processing
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
KR102502383B1 (ko) 2017-03-27 2023-02-23 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
CN107231599A (zh) * 2017-06-08 2017-10-03 北京奇艺世纪科技有限公司 一种3d声场构建方法和vr装置
US10390171B2 (en) * 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking
US10652686B2 (en) * 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
US10602298B2 (en) * 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10390170B1 (en) * 2018-05-18 2019-08-20 Nokia Technologies Oy Methods and apparatuses for implementing a head tracking headset
WO2020016685A1 (en) 2018-07-18 2020-01-23 Sphereo Sound Ltd. Detection of audio panning and synthesis of 3d audio from limited-channel surround sound
CN109327795B (zh) * 2018-11-13 2021-09-14 Oppo广东移动通信有限公司 音效处理方法及相关产品
US10887467B2 (en) * 2018-11-20 2021-01-05 Shure Acquisition Holdings, Inc. System and method for distributed call processing and audio reinforcement in conferencing environments
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
KR102283964B1 (ko) * 2019-12-17 2021-07-30 주식회사 라온에이엔씨 인터콤시스템 통신명료도 향상을 위한 다채널다객체 음원 처리 장치
GB2593170A (en) * 2020-03-16 2021-09-22 Nokia Technologies Oy Rendering reverberation
NL2026361B1 (en) 2020-08-28 2022-04-29 Liquid Oxigen Lox B V Method for generating a reverberation audio signal
CN115250412A (zh) * 2021-04-26 2022-10-28 Oppo广东移动通信有限公司 音频处理方法、装置、无线耳机及计算机可读介质
CN113518286B (zh) * 2021-06-29 2023-07-14 广州酷狗计算机科技有限公司 音频信号的混响处理方法、装置、电子设备及存储介质
CN113488019B (zh) * 2021-08-18 2023-09-08 百果园技术(新加坡)有限公司 基于语音房的混音系统、方法、服务器和存储介质
WO2023059838A1 (en) * 2021-10-08 2023-04-13 Dolby Laboratories Licensing Corporation Headtracking adjusted binaural audio
US11877143B2 (en) 2021-12-03 2024-01-16 Microsoft Technology Licensing, Llc Parameterized modeling of coherent and incoherent sound
WO2023199815A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響処理方法、プログラム、及び音響処理システム
GB202206430D0 (en) * 2022-05-03 2022-06-15 Nokia Technologies Oy Apparatus, methods and computer programs for spatial rendering of reverberation
CN116055983B (zh) * 2022-08-30 2023-11-07 荣耀终端有限公司 一种音频信号处理方法及电子设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334176A (ja) * 1994-06-08 1995-12-22 Matsushita Electric Ind Co Ltd 残響音生成装置
US5742689A (en) 1996-01-04 1998-04-21 Virtual Listening Systems, Inc. Method and device for processing a multichannel signal for use with a headphone
US6188769B1 (en) 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US20020067836A1 (en) 2000-10-24 2002-06-06 Paranjpe Shreyas Anand Method and device for artificial reverberation
US7099482B1 (en) 2001-03-09 2006-08-29 Creative Technology Ltd Method and apparatus for the simulation of complex audio environments
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
FR2865096B1 (fr) * 2004-01-13 2007-12-28 Cabasse Systeme acoustique pour vehicule et dispositif correspondant
GB0419346D0 (en) 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7634092B2 (en) * 2004-10-14 2009-12-15 Dolby Laboratories Licensing Corporation Head related transfer functions for panned stereo audio content
DE102005003431B4 (de) 2005-01-25 2009-01-15 Institut für Rundfunktechnik GmbH Anordnung zum Wiedergeben von binauralen Signalen (Kunstkopfsignalen) durch mehrere Lautsprecher
KR101512995B1 (ko) * 2005-09-13 2015-04-17 코닌클리케 필립스 엔.브이. 공간 디코더 유닛, 공간 디코더 장치, 오디오 시스템, 한 쌍의 바이노럴 출력 채널들을 생성하는 방법
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8270616B2 (en) 2007-02-02 2012-09-18 Logitech Europe S.A. Virtual surround for headphones and earbuds headphone externalization system
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
WO2009046909A1 (en) 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
US8126172B2 (en) 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system
US8885834B2 (en) * 2008-03-07 2014-11-11 Sennheiser Electronic Gmbh & Co. Kg Methods and devices for reproducing surround audio signals
CA2820208C (en) * 2008-07-31 2015-10-27 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Signal generation for binaural signals
CN101661746B (zh) * 2008-08-29 2013-08-21 三星电子株式会社 数字音频混响器和数字音频混响方法
TWI475896B (zh) 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
US20100119075A1 (en) 2008-11-10 2010-05-13 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
JP5141738B2 (ja) * 2010-09-17 2013-02-13 株式会社デンソー 立体音場生成装置
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
WO2012093352A1 (en) 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
CN102665156B (zh) * 2012-03-27 2014-07-02 中国科学院声学研究所 一种基于耳机的虚拟3d重放方法
JP5879199B2 (ja) 2012-05-22 2016-03-08 日本放送協会 残響応答生成装置およびそのプログラム
US9264812B2 (en) 2012-06-15 2016-02-16 Kabushiki Kaisha Toshiba Apparatus and method for localizing a sound image, and a non-transitory computer readable medium
EP4207817A1 (en) * 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US9426599B2 (en) 2012-11-30 2016-08-23 Dts, Inc. Method and apparatus for personalized audio virtualization
WO2014111765A1 (en) 2013-01-15 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
JP6433918B2 (ja) 2013-01-17 2018-12-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
EP2830043A3 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US10382880B2 (en) 2014-01-03 2019-08-13 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
CN104240695A (zh) * 2014-08-29 2014-12-24 华南理工大学 一种优化的基于耳机重放的虚拟声合成方法
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
EP3550859B1 (en) * 2015-02-12 2021-09-15 Dolby Laboratories Licensing Corporation Headphone virtualization
WO2017019781A1 (en) 2015-07-29 2017-02-02 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals

Also Published As

Publication number Publication date
US11140501B2 (en) 2021-10-05
US20180035233A1 (en) 2018-02-01
DK3550859T3 (da) 2021-11-01
PL3550859T3 (pl) 2022-01-10
US20190052989A1 (en) 2019-02-14
EP3257268B1 (en) 2019-04-24
EP3257268A1 (en) 2017-12-20
WO2016130834A1 (en) 2016-08-18
US20200367003A1 (en) 2020-11-19
CN110809227A (zh) 2020-02-18
CN107258091A (zh) 2017-10-17
HUE056176T2 (hu) 2022-02-28
EP4002888A1 (en) 2022-05-25
JP2018509864A (ja) 2018-04-05
CN107258091B (zh) 2019-11-26
CN110809227B (zh) 2021-04-27
US11671779B2 (en) 2023-06-06
EP3550859A1 (en) 2019-10-09
US10149082B2 (en) 2018-12-04
US10750306B2 (en) 2020-08-18
US20190342685A1 (en) 2019-11-07
EP3550859B1 (en) 2021-09-15
US20230328469A1 (en) 2023-10-12
US20220103959A1 (en) 2022-03-31
US10382875B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
ES2898951T3 (es) Virtualización de auricular
JP6950014B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
US20210227344A1 (en) Methods and systems for designing and applying numerically optimized binaural room impulse responses
ES2961396T3 (es) Generación de audio binaural en respuesta a audio multicanal que usa al menos una red de retardo de retroalimentación
ES2837864T3 (es) Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
ES2659179T3 (es) Ajuste por segmentos de señal de audio espacial a diferente configuración de altavoces de reproducción
ES2950001T3 (es) Rastreo de cabeza para sistema de salida binaural paramétrica
ES2895436T3 (es) Aparato y método para generar una señal de salida de audio que tiene por lo menos dos canales de salida
US20160360334A1 (en) Method and apparatus for sound processing in three-dimensional virtual scene
BR112015024692B1 (pt) Método de provisão de áudio realizado por um aparelho de áudio, e aparelho de áudio
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
US11212631B2 (en) Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
WO2016086125A1 (en) System and method for producing head-externalized 3d audio through headphones
WO2019023853A1 (zh) 一种音频处理方法以及音频处理设备
Yuan et al. Externalization improvement in a real-time binaural sound image rendering system
Tarzan et al. Assessment of sound spatialisation algorithms for sonic rendering with headphones
ES2779603T3 (es) Sistema y método de salida binaural paramétrico
CN118235432A (zh) 经头部跟踪调整的双耳音频
CN117793609A (zh) 一种声场渲染方法和装置