ES2933375T3 - Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural - Google Patents

Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural Download PDF

Info

Publication number
ES2933375T3
ES2933375T3 ES19193808T ES19193808T ES2933375T3 ES 2933375 T3 ES2933375 T3 ES 2933375T3 ES 19193808 T ES19193808 T ES 19193808T ES 19193808 T ES19193808 T ES 19193808T ES 2933375 T3 ES2933375 T3 ES 2933375T3
Authority
ES
Spain
Prior art keywords
impulse response
room
time
audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19193808T
Other languages
English (en)
Inventor
Simone NEUKAM
Jan Plogsties
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2933375T3 publication Critical patent/ES2933375T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un método para procesar una señal de audio (400) de acuerdo con una respuesta de impulso de la habitación incluye procesar por separado (402, 404, 406) la señal de audio (400) con una parte temprana de la respuesta de impulso de la habitación y con una reverberación tardía de la habitación. respuesta de impulso o una reverberación sintética, en donde el procesamiento (402, 404) de la señal de audio con la primera parte de la respuesta de impulso de la sala comprende una convolución de la señal de audio con un sonido directo y reflejos tempranos de la respuesta de impulso de la sala; combinar (418) la señal de audio (414) procesada con la primera parte de la respuesta al impulso de la sala y la señal de audio (416) procesada con la reverberación tardía de la respuesta al impulso de la sala o con la reverberación sintética; y determinar una transición desde la parte temprana a la reverberación tardía en la respuesta de impulso de la sala como un tiempo cuando una medida de correlación alcanza un umbral. La medida de correlación describe con respecto a la respuesta de impulso de la sala una similitud de una disminución de la energía acústica que incluye un estado inicial y de la disminución de la energía acústica a partir de un punto en el tiempo, siguiendo dicho punto en el tiempo el estado inicial en un rango de frecuencia predefinido . El umbral se establece en función de la medida de correlación para dicho punto en el tiempo, siendo dicho punto en el tiempo un tiempo de uno seleccionado de los primeros reflejos en la primera parte de la respuesta de impulso de la habitación. La seleccionada de las primeras reflexiones es la primera reflexión. La medida de correlación describe con respecto a la respuesta de impulso de la sala una similitud de una disminución de la energía acústica que incluye un estado inicial y de la disminución de la energía acústica a partir de un punto en el tiempo, siguiendo dicho punto en el tiempo el estado inicial en un rango de frecuencia predefinido . El umbral se establece en función de la medida de correlación para dicho punto en el tiempo, siendo dicho punto en el tiempo un tiempo de uno seleccionado de los primeros reflejos en la primera parte de la respuesta de impulso de la habitación. La seleccionada de las primeras reflexiones es la primera reflexión. La medida de correlación describe con respecto a la respuesta de impulso de la sala una similitud de una disminución de la energía acústica que incluye un estado inicial y de la disminución de la energía acústica a partir de un punto en el tiempo, siguiendo dicho punto en el tiempo el estado inicial en un rango de frecuencia predefinido . El umbral se establece en función de la medida de correlación para dicho punto en el tiempo, siendo dicho punto en el tiempo un tiempo de uno seleccionado de los primeros reflejos en la primera parte de la respuesta de impulso de la habitación. La seleccionada de las primeras reflexiones es la primera reflexión. siendo dicho punto en el tiempo un tiempo de uno seleccionado de los primeros reflejos en la primera parte de la respuesta de impulso de la habitación. La seleccionada de las primeras reflexiones es la primera reflexión. siendo dicho punto en el tiempo un tiempo de uno seleccionado de los primeros reflejos en la primera parte de la respuesta de impulso de la habitación. La seleccionada de las primeras reflexiones es la primera reflexión. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural
La presente invención se refiere al campo de la codificación/decodificación de audio, en especial a la codificación de audio espacial y a la codificación de objetos de audio espacial, por ejemplo, el campo de los sistemas de codecs de audio 3D. Las realizaciones de la invención se refieren a enfoques para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación y para la determinación en tal respuesta al impulso de la habitación de una transición de las reflexiones tempranas de reverberación tardía.
Las herramientas de codificación de audio espacial son muy conocidas en la técnica y están estandarizadas, por ejemplo, en el estándar de MPEG-envolvente. La codificación de audio espacial comienza a partir de una pluralidad de entrada original, por ejemplo, cinco o siete canales de entrada, que se identifican por su colocación en una configuración de reproducción, por ejemplo, como un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de mejora de bajas frecuencias. Un codificador de audio espacial puede derivar uno o más canales de mezclado descendente de los canales originales y, en forma adicional, puede derivar datos paramétricos en relación a las señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. El uno o más canales de mezclado descendente se transmiten junto con la información lateral paramétrica que indica las señales espaciales a un decodificador de audio espacial para la decodificación de los canales de mezclado descendente y los datos paramétricos asociados con el fin de obtener finalmente los canales de salida que son una versión aproximada de los canales de entrada originales. La colocación de los canales en la configuración de salida puede ser fija, por ejemplo, un formato de 5.1, un formato de 7.1, etc.
Además, las herramientas de codificación de objetos de audio espacial son muy conocidas en la técnica y están estandarizadas, por ejemplo, en el estándar MPEG SAOC (SAOC = codificación de objetos de audio espacial). A diferencia de la codificación de audio espacial a partir de los canales originales, la codificación de objetos de audio espacial comienza a partir de objetos de audio que no se dedican de forma automática durante una cierta instalación de reproducción renderizada. Más bien, la colocación de los objetos de audio en la escena de reproducción es flexible y puede ser configurada por un usuario, por ejemplo, por medio de la introducción de cierta información de representación en un decodificador de codificación de objetos de audio espacial. En forma alternativa o en forma adicional, la información de representación puede transmitirse como información lateral adicional o metadatos; la prestación de información puede incluir información en cuya posición en la configuración de la reproducción de un cierto objeto de audio se ha de colocar (por ejemplo, a lo largo del tiempo). Con el fin de obtener una cierta compresión de datos, un número de objetos de audio se codifica por medio de un codificador SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte por medio del mezclado descendente de la reproducción de los objetos de acuerdo con cierta información de mezclado descendente. Además, el codificador SAOC calcula la información lateral paramétrica que representa las señales inter-objetos tales como las diferencias de nivel de objeto (OLD), los valores de coherencia de objeto, etc. Al igual que en SAC (SAC = codificación de audio espacial), los datos entre objetos paramétricos se calculan para tiempos individuales/mosaicos de frecuencia. Para un cierto marco (por ejemplo, 1024 o 2048 muestras) de la señal de audio de una pluralidad de bandas de frecuencia (por ejemplo, 24, 32, o 64 bandas) se consideran de manera tal que se proporcionan datos paramétricos para cada marco y cada banda de frecuencia. Por ejemplo, cuando una pieza de audio tiene 20 marcos y cuando cada marco está subdividido en 32 bandas de frecuencia, el número de mosaicos de tiempo/frecuencia es 640.
En los sistemas de audio en 3D puede ser deseable proporcionar una impresión espacial de una señal de audio como si la señal de audio fuera escuchada en una habitación específica. En tal situación, se proporciona una respuesta al impulso de la habitación de la habitación específica, por ejemplo sobre la base de una medición de los mismos, y se utiliza para el procesamiento de la señal de audio al presentarla a un oyente. Se puede desear el procesamiento del sonido directo y las reflexiones en tal presentación separada de la reverberación tardía. Para ello es necesario determinar dónde terminan las reflexiones tempranas y dónde comienza la reverberación tardía.
Un objetivo de la presente invención es proporcionar un enfoque mejorado para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación.
Este objetivo se consigue por medio de un método de acuerdo con la reivindicación 1, una unidad de procesamiento de señales de acuerdo con la reivindicación 6, un codificador de audio de acuerdo con la reivindicación 8, un decodificador de audio de acuerdo con la reivindicación 9 y un renderizador binaural de acuerdo con la reivindicación 10.
La presente invención está basada en los hallazgos de los inventores de que en los enfoques convencionales existe el problema de que hay situaciones en que la determinación de la transición de las reflexiones tempranas y la reverberación tardía es demasiado pronto porque una correlación utilizado para juzgar la aparición de la transición ya alcanza un umbral antes de que la primera reflexión incluso se produjo o incidía. Sobre la base de estos hallazgos y dado que se sabe que el momento de transición debe ser mayor que el tiempo de llegada de la primera reflexión, debido a que la primera reflexión es claramente distinta y puede asegurarse que no es la reverberación tardía difusa, los inventores hallaron que es necesario evitar el uso de un umbral fijo, más bien, de acuerdo con el enfoque de la invención, el umbral se define de manera tal que es dependiente de la correlación en el momento de incisión de una de las reflexiones tempranas. Esto asegura que la primera reflexión siempre se encuentra antes de que el momento de transición.
El enfoque de la invención es ventajoso ya que permite un procesamiento mejorado de la señal de audio sobre la base de un punto de transición robusto. El enfoque de la invención es independiente de la habitación, de si se utiliza o no un enfoque binaural y del ángulo de incidencia. En comparación con los enfoques de la técnica anterior, el enfoque de la invención es más ventajoso porque no es fuertemente dependiente del ángulo azimutal de una respuesta al impulso binaural y la relación entre las amplitudes de sonido directo y la primera reflexión de incisión.
De acuerdo con las realizaciones, la medida de correlación es una medida de correlación que describe la similitud de la decadencia en la energía acústica que incluye el estado inicial y la decadencia en la energía acústica partiendo en cualquier momento después el estado inicial. La medida de correlación se puede calcular de acuerdo con lo presentado a continuación:
Xw(£( 1,m) - E(1, m)) • Ea(E(t, m) - E(t, m))
P(t ) =
J e ^(E(1, m) - E( 1, m)) 2 • J z a(E(t, m) - E(t, m)) 2
donde
P(t ) = medida de correlación,
E(1,m) = alivio del decaimiento de energía de intervalo en la frecuencia f,
E(1,m) = valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía de intervalo completo inicial
E (t, m) = alivio del decaimiento de energía en la frecuencia f a partir de un tiempo t,
E(t,M) = valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía de intervalo completo a partir del tiempo t
w = 2pF.
Esto es ventajoso, dado que la fórmula se refiere al coeficiente de correlación de Pearson muy conocido (correlación de producto-momento de Pearson). El coeficiente de correlación se puede calcular directamente a partir del EDR.
De acuerdo con las realizaciones, el umbral se determina en base a un valor constante y la medida de correlación para la seleccionada de las reflexiones tempranas. El umbral se puede definir de acuerdo con lo presentado a continuación:
P(t ) = c • p(tF)
donde
p(tF ) = medida de correlación para la seleccionada de las reflexiones tempranas,
tF = índice de tiempo en el que el seleccionada de las reflexiones tempranas después de la incisión del sonido directo,
c = el valor constante que está basado en -, e siendo e el número de Euler.
Esto es ventajoso, dado que el umbral no es constante, sino que depende de la reflexión temprana seleccionada para asegurar que la correlación no cae demasiado pronto por debajo del umbral.
Las realizaciones de la presente invención se describirán con respecto a las figuras adjuntas, en las que:
La figura 1 ilustra una visión general de un codificador de audio 3D de un sistema de audio 3D;
la figura 2 ilustra una visión general de un decodificador de audio 3D de un sistema de audio 3D;
la figura 3 ilustra un ejemplo para implementar un conversor de formatos que se puede implementar en el decodificador de audio 3D de la Fig. 2;
la figura 4 ilustra una realización de un renderizador binaural que se puede implementar en el decodificador de audio 3D de la Fig. 2;
la figura 5 ilustra un ejemplo de una respuesta al impulso de la habitación h(t);
la figura 6 (A) ilustra un diagrama de bloques de una unidad de procesamiento de señales (por ejemplo, en un renderizador binaural de la Fig. 4) para el procesamiento por separado de una señal de audio con una parte temprana y una reverberación tardía del impulso de la habitación de acuerdo con una realización de la invención;
la figura 6 (B) ilustra un diagrama de bloques de otra unidad de procesamiento de señales (por ejemplo, en un renderizador binaural de la Fig. 4) para el procesamiento por separado de una señal de audio con una parte temprana y una reverberación tardía del impulso de la habitación de acuerdo con una realización adicional de la invención;
la figura 7 ilustra un diagrama de flujo de un método para determinar un momento de transición entre las reflexiones tempranas y la reverberación tardía en una respuesta al impulso de la habitación, de acuerdo con una realización de la invención;
la figura 8 ilustra el alivio del decaimiento de energía (EDR) para lograr una respuesta al impulso determinada de acuerdo con un enfoque basado en FFT;
la figura 9 ilustra la determinación del momento de transición de acuerdo con una realización de la invención;
la figura 10 ilustra los tiempos de transición para un canal izquierdo y un canal derecho para una respuesta al impulso de la habitación binaural medida determinada por el uso de un método convencional;
la figura 11 ilustra los tiempos de transición para un canal izquierdo y un canal derecho para una respuesta al impulso de la habitación binaural medida determinada por el uso del método de la invención;
la figura 12 ilustra en forma esquemática el procesamiento binaural de señales de audio en un renderizador binaural de acuerdo con una realización de la presente invención; y
la figura 13 ilustra en forma esquemática el procesamiento en el reverberador del dominio de frecuencia del renderizador binaural de la Fig. 12 de acuerdo con una realización de la presente invención.
A continuación se describirán realizaciones del enfoque inventivo para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación y para la determinación en una respuesta al impulso de la habitación de una transición de las reflexiones tempranas de reverberación tardía. La siguiente descripción se iniciará con una visión general del sistema de un sistema de códec de audio 3D en el que se puede implementar el enfoque inventivo.
Las figuras 1 y 2 muestran los bloques algorítmicos de un sistema de audio 3D de acuerdo con las realizaciones. En forma más específica, la Fig. 1 muestra una visión general de un codificador 100 de audio 3D. El codificador 100 de audio recibe en un circuito 102 pre-renderizador/mezclador, que puede estar provisto en forma opcional, por señales de entrada, en forma más específica una pluralidad de canales de entrada que proporciona al codificador 100 de audio una pluralidad de señales 104 de canales, una pluralidad de señales 106 de objetos y metadatos 108 de objetos correspondientes. Las señales de objetos 106 procesadas por el pre-renderizador/mezclador 102 (véase las señales 110) se pueden proporcionar a un codificador 112 SAOC (SAOC = Codificación de Objetos de Audio Espacial). El codificador 112 SAOC genera los canales 114 de transporte SAOC proporcionados a un 116 codificador USAc (USAC = Codificación Unificada de Voz y Audio). Además, la señal 118 de SAOC-SI (SAOC-SI = información lateral SAOC) también se proporciona para el codificador 116 USAC. El codificador 116 USAC además recibe señales 120 de objetos directamente desde el pre-renderizador/mezclador, así como las señales de canales y señales 122 objeto de prerenderizadas. La información de metadatos 108 de objetos se aplica a un codificador 124 OAM (OAM = metadatos de objeto) que proporciona la información de metadatos de objeto comprimida 126 del codificador USAC. El codificador 116 USAC, sobre la base de las señales de entrada mencionadas con anterioridad, genera una señal de salida MP4 comprimido, de acuerdo con lo mostrado en 128.
La Fig. 2 muestra una visión general de un decodificador 200 de audio 3D del sistema de audio 3D. La señal 128 (mp4) codificada generada por el codificador 100 de audio de la Fig. 1 es recibida en el decodificador 200 de audio, en forma más específica en un codificador 202 USAC. El codificador 202 USAC decodifica la señal recibida 128 en las señales 204 de canales, las señales 206 de objetos pre-renderizadas, las señales 208 de objetos, y las señales 210 de canales de transporte SAOC. Además, la información de metadatos de objetos 212 comprimidos y la señal 214 SAOC-SI se emite por medio del codificador 202 USAC. Las señales 208 de objetos se proporcionan a un renderizador 216 de objetos que da salida a las señales de objetos 218 renderizados. Las señales de canales 210 de transporte SAOC se suministran al decodificador 220 SAOC que da salida a las señales de objetos 222 renderizados. La información de metadatos de objetos 212 comprimidos se suministra al decodificador 224 OAM que da salida a las señales de control respectivas para el renderizador 216 de objetos y el decodificador 220 SAOC para generar las señales de objetos 218 renderizados y las señales de objetos 222 renderizados. El decodificador comprende además un mezclador 226 que recibe, de acuerdo con lo mostrado en la Fig. 2, las señales 204, 206, 218 y 222 de entrada para dar salida a las señales 228 de canales. Las señales de canales pueden ser directamente la salida a un altavoz, por ejemplo, un canal 32 de altavoz, de acuerdo con lo indicado en 230. Las señales 228 se pueden proporcionar a un circuito 232 de conversión de formato que recibe como una entrada de control una señal de la disposición de reproducción que indica la forma en que se convertirán las señales 228 de canales. En la realización representada en la Fig. 2, se supone que la conversión se ha de hacer de una manera tal que las señales se pueden proporcionar a un sistema de altavoces 5.1 de acuerdo con lo indicado en 234. Además, las señales 228 de canales se pueden proporcionar a un renderizador 236 binaural la generación de dos señales de salida, por ejemplo, para un auricular, de acuerdo con lo indicado en 238.
En una realización de la presente invención, el sistema de codificación/decodificación se representa en las Figs. 1 y 2 está basado en el códec MPEG-D USAC para la codificación de señales de canales y objetos (véanse las señales 104 y 106). Para aumentar la eficiencia de codificación de una gran cantidad de objetos, se puede utilizar la tecnología MPEG SAOc . Tres tipos de renderizadores pueden llevar a cabo las tareas de representación de objetos a los canales, renderizando los canales a los auriculares o renderizando los canales a una configuración de altavoces diferente (véase la Fig. 2, los signos de referencia 230, 234 y 238). Cuando las señales de objetos se transmiten de manera explícita o se codifican en forma paramétrica por el uso de SAOC, la información de metadatos de objeto 108 correspondiente se comprime (véase la señal 126) y se multiplexa en el flujo de bits 128 de audio 3D.
Los bloques del algoritmo del sistema de audio 3D general que se muestran en las Figs. 1 y 2 se describirán en detalle adicional a continuación.
El pre-renderizador/mezclador 102 se puede proporcionar en forma opcional para convertir una escena de entrada de canal más objetos antes de la codificación. Funcionalmente, es idéntico al renderizador/mezclador de objetos que se describirá más adelante. Puede ser deseable la pre-renderización de objetos para asegurar una entropía de señal determinista en la entrada del codificador que es, básicamente, independiente del número de señales de objetos simultáneamente activas. Con la pre-renderización de los objetos, no se requiere ningún objeto de transmisión de metadatos. Las señales de objetos discretos se representan en el diseño del canal que el codificador está configurado para utilizar. Los pesos de los objetos para cada canal se obtuvieron a partir de los metadatos de objeto asociado (OAM).
El codificador 116 USAC es el códec de núcleo para las señales de altavoz de los canales, señales de objetos discretos, señales de mezclado descendente de objetos y señales pre-renderizadas. Está basado en la tecnología MPEG-D USAC. Se ocupa de la codificación de las señales anteriores por medio de la creación de información de canal y mapeo de objetos basado en la información geométrica y semántica del canal de entrada y la asignación de objetos. Esta información de asignación se describe cómo los canales de entrada y los objetos se asignan a USA-elementos de canal, como elementos de par de canales (EPP), elementos individuales de canal (SCE), efectos de baja frecuencia (LFE) y elementos de canal cuádruple (QCE) y CPE, CPE y LFE, y la información correspondiente se transmite al decodificador. Todas las cargas adicionales como datos 114, 118 SAOC o un objeto 126 de metadatos se consideran en el control de la frecuencia del codificador. La codificación de objetos es posible en diferentes formas, dependiendo de los requisitos de tasa/distorsión y los requisitos de interactividad para el procesador. De acuerdo con las realizaciones, son posibles las siguientes variantes de codificación de objetos:
• Objetos pre-renderizados: Las señales de objetos son pre-renderizados y se mezclan con las señales de canales de 22.2 antes de la codificación. La cadena de codificación posterior ve 22.2 señales de canal.
• Las formas de onda de objetos discretos: Los objetos se suministran como formas de onda monofónicos al codificador. El codificador utiliza los elementos de canal individuales (CPE) para transmitir los objetos además de las señales de canal. Los objetos decodificados se representan y se mezclan en el lado del receptor. La información de metadatos de objeto comprimido se transmite al receptor/renderizador.
• Las formas de onda de objetos paramétricos: Las propiedades de los objetos y su relación entre sí, se describen por medio de parámetros SAOC. El mezclado descendente de las señales de objetos se codifica con la USAC. La información paramétrica se transmite a lo largo. Se elige el número de canales de mezclado descendente en función del número de objetos y la velocidad de datos global. La información de metadatos de objeto comprimido se transmite al renderizador SAOC.
El codificador 112 SAOC y el decodificador 220 SAOC para señales de objetos pueden estar basados en la tecnología MPEG SAOC. El sistema es capaz de volver a crear, modificar y renderizar un número de objetos de audio basado en un número menor de canales de transmisión y datos paramétricos adicionales, tales como OLD, IOC (Coherencia entre los Objetos), DMGS (Ganancias de Mezclado Descendente). Los datos paramétricos adicionales exhiben una velocidad de datos significativamente menor que la requerida para la transmisión de todos los objetos individualmente, lo que hace la codificación muy eficiente. El codificador 112 SAOC toma como entrada las señales de objetos/canal en forma de ondas monofónicas y emite la información paramétrica (que se empaqueta en el flujo de bits 128 de audio 3D) y los canales de transporte SAOC (que son codificados por el uso de elementos de un solo canal y se transmiten). El decodificador 220 SAOC reconstruye las señales de objeto/de canal de los canales 210 de transporte SAOC descodificados y la información 214 paramétrica, y genera la escena de audio de salida con base en el diseño de la reproducción, la información de metadatos de objetos descomprimidos y, en forma opcional, sobre la base de la información de la interacción del usuario.
El códec de metadatos de objeto (véase el codificador 124 OAM y el decodificador 224 OAM) se proporciona de manera tal que, para cada objeto, los metadatos asociados que especifican la posición geométrica y el volumen de los objetos en el espacio 3D se codifica de manera eficiente por la cuantificación de las propiedades del objeto en tiempo y espacio. El COAM 126 de metadatos de objeto comprimido se transmite al receptor 200 como información lateral.
El renderizador 216 de objetos utiliza los metadatos de objeto comprimido para generar formas de onda de objetos de acuerdo con el formato de reproducción dado. Cada objeto se representa a un canal de salida determinada en función de sus metadatos. La salida de este bloque resulta de la suma de los resultados parciales. Si tanto el contenido basado en canal, así como se decodifican objetos discretos/paramétricas, las formas de onda basadas canal y las formas de onda de los objetos renderizados son mezclados por el mezclador 226 antes de la salida de las formas 228 de onda de resultantes o antes de alimentar a un módulo post-procesador como el renderizador 236 binaural o el módulo renderizador 232 de altavoz.
El módulo 236 de renderizador binaural produce un mezclado descendente binaural del material de audio multicanal de manera tal que cada canal de entrada está representada por una fuente de sonido virtual. El procesamiento se realiza marco a marco en el dominio MGC (Banco de Filtro en Espejo de Cuadratura) y la binauralización está basada en las respuestas al impulso de la habitación binaurales medidas.
El renderizador 232 de altavoz convierte entre la configuración del canal 228 de transmisión y el formato de reproducción deseado. También puede ser llamado "conversor de formatos". El conversor de formatos realiza conversiones para reducir el número de canales de salida, es decir, crea mezclas descendentes.
La Fig. 3 muestra un ejemplo para implementar un conversor 232 de formatos. El conversor 232 de formatos, también conocido como renderizador de altavoz, convierte entre la configuración del canal transmisor y el formato de la reproducción deseada. El conversor 232 de formatos realiza conversiones a un menor número de canales de salida, es decir, se realiza un proceso de mezclado 240 descendente (DMX). El elemento de mezclado 240 descendente, que opera preferiblemente en el dominio de QMF, recibe las señales de salida 228 del mezclador y da salida a las señales 234 del altavoz. Se puede proporcionar un configurador 242, también denominado como controlador, que recibe, como una entrada de control, una señal 246 indicativa de la distribución de salidas del mezclador, es decir, la disposición para que los datos representados por la señal de salida 228 del mezclador se determina, y la señal 248 indicativa de la disposición de reproducción deseado. Con base en esta información, el controlador 242, preferiblemente en forma automática, genera matrices de mezclado descendente optimizados para la combinación dada de formatos de entrada y de salida y aplica estas matrices para el elemento de mezclado 240 descendente. El conversor 232 de formatos permite configuraciones de altavoces estándar, así como para configuraciones aleatorias con posiciones de los altavoces que no son estándar.
La Fig. 4 ilustra una realización del renderizador 236 binaural de la Fig. 2. El módulo de renderizador binaural puede proporcionar un mezclado descendente binaural del material de audio multicanal. La binauralización puede estar basada en una respuesta al impulso de la habitación binaural medida. La respuesta al impulso de la habitación puede ser considerada como una "huella digital" de las propiedades acústicas de una habitación real. La respuesta al impulso de la habitación se mide y se almacena, y se pueden proporcionar señales acústicas arbitrarias con esta "huella digital", permitiendo de ese modo la escucha de una simulación de las propiedades acústicas de la habitación asociadas con la respuesta al impulso de la habitación. El renderizador 236 binaural puede ser programado o configurado para la prestación de los canales de salida en dos canales binaurales por el uso de funciones de transferencia relacionadas con los cabezales o las respuestas al impulso de la habitación binaurales (BRIR). Por ejemplo, para los dispositivos móviles se desea una renderización binaural para auriculares o altavoces conectados a tales dispositivos móviles. En tales dispositivos móviles, debido a las limitaciones, puede ser necesario limitar el decodificador y la complejidad de representación. Además de la omisión de descorrelación en tales escenarios de procesamiento, puede ser preferible llevar a cabo primero un mezclado descendente por el uso de un elemento de mezclado 250 descendente a una señal de mezclado 252 descendente intermedia, es decir, a un menor número de canales de salida que se traduce en un menor número de canal de entrada para el conversor 254 binaural real. Por ejemplo, un material de 22.2 canales se puede mezclar en forma descendente por el elemento de mezclado 250 descendente a un mezclado descendente intermedio 5.1 o, en forma alternativa, el mezclado descendente intermedio puede calcularse directamente por el decodificador 220 SAOC en la Fig. 2 en una especie de modo de "acceso directo". La renderización binaural entonces sólo tiene que aplicar diez HRTF (Funciones de Transferencia de Cabecera) o funciones BRIR para la prestación de los cinco canales individuales en diferentes posiciones en contraste con la aplicación de 44 funciones HRTF o BRIR si los 22.2 canales de entrada debían ser renderizados directamente. Las operaciones de convolución necesarias para la renderización binaural requieren una gran cantidad de potencia de procesamiento y, por lo tanto, reducen esta potencia de procesamiento, si bien la obtención de una calidad de audio aceptable todavía es particularmente útil para dispositivos móviles. El renderizador 236 binaural produce un mezclado 238 descendente binaural del material de audio 228 multicanal, de manera tal que cada canal de entrada (con exclusión de los canales LFE) está representado por una fuente de sonido virtual. La transformación puede llevarse a cabo marco a marco de dominio QMF. La binauralización está basada en las respuestas al impulso de la habitación binaurales medidas, y el sonido directo y las reflexiones puede ser impresas en el material de audio a través de un enfoque de convolución en un dominio pseudo-FFT por el uso de una convolución rápida en la parte superior del dominio QMF, mientras que la reverberación tardía se puede procesar por separado.
La Fig. 5 muestra un ejemplo de una respuesta 300 al impulso de la habitación h(t). La respuesta al impulso de la habitación comprende tres componentes, el sonido 301 directo, las reflexiones 302 tempranas y la reverberación 304 tardía. Por lo tanto, la respuesta al impulso de la habitación describe el comportamiento de reflexión de un espacio acústico cerrado reverberante cuando se reproduce un impulso. Las reflexiones 302 tempranas son reflejos discretos con aumento de la densidad, y la parte de la respuesta al impulso en el que las reflexiones individuales ya no pueden ser discriminadas se llama reverberación 304 tardía. El sonido 301 directo puede ser fácilmente identificado en la respuesta al impulso de la habitación y se puede separar de las reflexiones tempranas, sin embargo, la transición de reflexión 302 temprana a la reverberación 304 tardía es menos evidente.
En las siguientes realizaciones del enfoque de la invención se describirá con más detalle. De acuerdo con las realizaciones de la invención, una señal de audio se procesa por separado con una parte temprana y una reverberación tardía de una respuesta al impulso de la habitación. La señal de audio procesada con la parte temprana de la respuesta al impulso de la habitación y la señal reverberada se combinan y se emite como la señal de audio de salida. Para la tramitación separada de la transición en la respuesta al impulso de la habitación desde la parte temprana a la reverberación tardía necesita ser conocida. La transición está determinada por una medida de correlación que alcanza un umbral, en el que el umbral se establece dependiendo de la medida de correlación para una seleccionada de las reflexiones tempranas en la parte temprana de la respuesta al impulso de la habitación. La medida de correlación se puede describir con respecto a la respuesta al impulso de la habitación de la similitud de la decadencia en la energía acústica que incluye el estado inicial y la decadencia en la energía acústica partiendo en cualquier momento después del estado inicial en un intervalo de frecuencia predefinida.
De acuerdo con las realizaciones, el procesamiento independiente de la señal de audio comprende el procesamiento de la señal de audio con la reflexión 301 ,302 parte temprana de la respuesta al impulso de la habitación durante un primer proceso, y procesar la señal de audio con la reverberación 304 difusa de la respuesta al impulso de la habitación durante un segundo proceso que es diferente y separado del primer proceso. El cambio del primer proceso al segundo proceso se produce en el momento de transición. De acuerdo con las realizaciones adicionales, en el segundo proceso de reverberación 304 difusa (tardía) puede ser sustituido por una reverberación sintética. En este caso, la respuesta al impulso de la habitación siempre puede contener sólo la parte temprana de reflexión 301, 302 (véase la Fig. 5) y la reverberación 304 tardía difusa no está incluida.
La Fig. 6(A) muestra un diagrama de bloques que ilustra una primera unidad de procesamiento de señal representativa para el procesamiento por separado de una señal de audio con una parte temprana y una reverberación tardía del impulso de la habitación de acuerdo con una realización de la invención. El procesamiento de la señal de audio de acuerdo con las diferentes partes de la respuesta al impulso de la habitación puede llevarse a cabo en un renderizador 236 binaural que se ha descrito con anterioridad. La señal 400 de entrada de audio puede ser un material de audio no reverberante, por ejemplo, una señal de entrada de audio multicanal, que se convoluciona con la respuesta al impulso de la habitación, por ejemplo, una respuesta al impulso de la habitación medida por el uso de una cabeza artificial o micrófonos en la oreja. Esta convolución permite obtener una impresión espacial del material de audio no reverberante original como si el material de audio se escuchara en la habitación asociada con respuesta al impulso de la habitación. Por ejemplo, en el renderizador 236 binaural mencionado con anterioridad, puede ser deseable el procesamiento de la señal de audio con el sonido 301 directo y la reflexión 302 temprana en la respuesta al impulso de la habitación y el procesamiento de la señal de audio con la reverberación 304 tardía por separado. Para el procesamiento de la señal 400 de audio de entrada, se proporcionan un bloque 402 para el procesamiento de sonido directo, un bloque 404 para el procesamiento de las reflexiones tempranas y un bloque 406 para el procesamiento de reverberación tardía. Las señales 408 y 410 de salida de los respectivos bloques 402 a 406 se combinan por medio de un primer sumador 412 para generar una señal 414 temprana procesada. La señal 414 temprana procesada y la 416 señal reverberada proporcionada por el procesador 406 se combinan por un segundo sumador 418 para la generación de la señal de salida de audio 420 que proporciona a un oyente la impresión como si la señal de audio fuera escuchada en la habitación asociada con las respuestas al impulso de la habitación.
El procesamiento de la reverberación 302 tardía separado del sonido directo y las reflexiones tempranas es ventajoso debido a la complejidad computacional reducida. En forma más específica, el uso de una convolución para toda la respuesta al impulso es computacionalmente muy costoso. Por lo tanto, los algoritmos de reverberación con menor complejidad normalmente se utilizan para el procesamiento de señales de audio con el fin de simular la reverberación tardía. El sonido y las reflexiones tempranas que son parte directa de la respuesta al impulso se calcula más exactamente por medio de una convolución. Una ventaja adicional es la posibilidad de control de la reverberación. Esto permite que la reverberación tardía sea modificada dependiente de, por ejemplo, una entrada de usuario, un parámetro ambiente medido o dependiente de los contenidos de la señal de audio. Para lograr las ventajas por encima de la transición (por ejemplo, el punto en el tiempo), donde las reflexiones 302 tempranas finalizan y donde la reverberación 304 tardía arranca debe ser conocido. Cuando el procesamiento de reverberación tardía comienza demasiado pronto, la señal de audio puede ser de menor calidad dado que el oído humano puede detectar las reflexiones tempranas distintas faltantes. Por otro lado, si se detecta el momento de transición demasiado tarde, no se explota la eficiencia computacional, como el procesamiento de las reflexiones tempranas en forma típica es más costoso que el procesamiento de reverberación tardía. La transición, por ejemplo, en muestras de dominio de tiempo, se puede alimentar al renderizador binaural como un parámetro de entrada que luego, dependiendo de la transición recibida, controla los procesadores 402 a 406 para el procesamiento por separado de la señal de audio.
La Fig. 6 (B) ilustra un diagrama de bloques de otra unidad de procesamiento de señales representativa para el procesamiento por separado de una señal de audio con una parte temprana y una reverberación tardía del impulso de la habitación de acuerdo con otra realización de la invención. La señal 400 de entrada, por ejemplo, una señal de entrada de audio multicanal, se recibe y se aplica a un primer procesador 422 para el procesamiento de la parte temprana, es decir, para el procesamiento de la señal de audio de acuerdo con el sonido 301 directo y las reflexiones 302 tempranas en la respuesta 300 al impulso de la habitación mostrado en la Fig. 5. La señal 400 de entrada de audio multicanal también se aplica a un segundo procesador 424 para el procesamiento de la señal de audio de acuerdo con la reverberación 304 tardía de la respuesta al impulso de la habitación. En un renderizador binaural, de acuerdo con lo mencionado con anterioridad, se puede desear el procesamiento del sonido directo y las reflexiones tempranas separado de la reverberación tardía, principalmente a causa de la complejidad computacional reducida. El procesamiento del sonido directo y las reflexiones tempranas se imprime a la señal de audio un enfoque convolucional llevado a cabo por el primer procesador 422, mientras que la reverberación tardía puede ser sustituida por una reverberación sintética proporcionada por el segundo procesador 424. La señal de salida 420 global binaural es entonces una combinación del resultado 428 convolucional proporcionado por el procesador 422 y la señal 430 sintética reverberada proporcionada por el procesador 424. De acuerdo con las realizaciones, las señales 428 y 430 son combinadas por un sumador 432 que da salida a la señal 420 de salida binaural global.
De acuerdo con lo mencionado, el primer procesador 422 provoca una convolución de la señal 400 de entrada de audio con un sonido directo y las reflexiones tempranas de la respuesta al impulso de la habitación que se puede proporcionar al primer procesador 422 de una base 434 de datos externa sosteniendo una pluralidad de respuestas al impulso de la habitación binaural registradas. El segundo procesador o reverberador 424 puede operar sobre la base de parámetros del reverberador, como la reverberación RT60 y la energía de reverberación, que se puede obtener a partir de las respuestas al impulso de la habitación binaural almacenados por un análisis 436. Se observa que el análisis 436 no es necesariamente parte del procesador, en cambio esto es para indicar que a partir de las respuestas respectivas almacenadas en la base de datos se pueden derivar los parámetros 434 de reverberación respectivos; esto se puede hacer en forma externa. Los parámetros del reverberador se pueden determinar, por ejemplo, por medio del cálculo de la energía y el tiempo de reverberación RT60 en una octava o un tercio de octava de filtros de análisis, o pueden ser valores medios de los resultados de los análisis de respuesta al impulso múltiple.
Además, ambos procesadores 422 y 424 también reciben de la base 434 de datos, directamente o a través del análisis 436, como parámetro de entrada, información acerca de la transición en la respuesta al impulso de la habitación desde la parte temprana a la reverberación tardía. La transición puede ser determinada de una manera de acuerdo con lo descripto con más detalle a continuación.
De acuerdo con las realizaciones, el análisis de transición se puede utilizado para separar las reflexiones tempranas y la reverberación tardía. Se puede alimentar al renderizador binaural como parámetro de entrada (por ejemplo, se puede leer de un archivo/interfaz dedicada junto con valores RT60 y valores de energía que se utilizan para configurar el reverberador). El análisis puede estar basado en un conjunto de respuestas al impulso de la habitación binaurales (un conjunto de pares BRIR para una multitud de ángulos de azimut y de elevación). El análisis puede ser un paso de procesamiento previo que se lleva a cabo por separado para cada respuesta al impulso y luego el promedio de todos los valores de transición se toma como un valor global de transición del conjunto BRIR. Este valor global de transición se puede utilizar entonces para separar las reflexiones tempranas de la reverberación tardía en el cálculo de la señal de salida binaural.
Varios enfoques para la determinación de la transición son conocidos, sin embargo, estos enfoques tienen desventajas de acuerdo con lo descripto a continuación. En referencia de la técnica anterior [1] se describe un método que utiliza el alivio del decaimiento de energía (EDR) y una medida de correlación para determinar el momento de transición desde las reflexiones tempranas de reverberación tardía. Sin embargo, el enfoque descrito en la referencia de la técnica anterior [1] es desventajoso.
1. El enfoque es fuertemente dependiente del ángulo azimutal de la respuesta al impulso binaural y la relación entre las amplitudes de sonido directo y la primera reflexión que incide.
2. El momento de transición se calcula en bandas de frecuencias arbitrarias. No hay conocimiento general acerca de cuál de las bandas de frecuencia da el momento de transición correcto a utilizarse para la respuesta al impulso global.
3. No hay información sobre el paso de correlación esencial del enfoque.
Otro enfoque conocido es describir las reflexiones tempranas por la dispersión de los ecos en un espacio, por ejemplo, por el número promedio de reflexiones por segundo, y para determinar el comienzo de la reverberación tardía cuando este número supera un umbral predefinido (véase la referencia de la técnica anterior [2]). Este enfoque está basado en la característica de la habitación, es decir, el volumen de la habitación, que a menudo es desconocido. El volumen de la habitación no puede ser fácilmente extraído de una respuesta al impulso medida. Por lo tanto, este método no es aplicable para el cálculo de la transición de respuestas al impulso medidas. También, no hay conocimiento común cómo densa las reflexiones tienen que ser para ser denominado reverberación tardía.
Otra posibilidad, descripta en la referencia de la técnica anterior [3], es comparar la distribución real en un momento en una ventana de respuesta al impulso de una distribución gaussiana en el dominio del tiempo. Se supone que la reverberación tardía tiene una distribución normal. En una distribución normal, aproximadamente un tercio (exactamente 1/e) de las muestras se encuentran fuera de una desviación estándar de la media y dos tercios de las muestras están dentro de una desviación estándar de la media. Las reflexiones tempranas distintas tienen más muestras dentro de una desviación estándar y menos fuera. La proporción de muestras fuera de una desviación estándar en comparación con las muestras dentro de una desviación estándar se puede utilizar para definir el momento de transición. Sin embargo, la desventaja de este enfoque es que la transición es difícil de definir con esta medida, debido a que la relación a veces fluctúa en torno al umbral. La medida también depende en gran medida del tamaño y del tipo de la ventana deslizante en el que se calcula la proporción.
Además de los enfoques mencionados con anterioridad, también la curtosis (la más alta orden acumulante de una señal estocástica) se puede utilizar para determinar el momento de transición. Ésta disminuye rápidamente al acercarse hacia la última parte de la respuesta al impulso, de acuerdo con lo descripto en la referencia de la técnica anterior [4]. Sin embargo, la definición del umbral para la transición (ya sea el uso de una rápida disminución o el momento en el que primero llega a cero) no está clara.
Hay todavía otro enfoque que no está basado en el análisis de una respuesta al impulso medida, pero en el volumen de la habitación, de acuerdo con lo descripto en [2]. Este enfoque asume que el momento de transición sólo depende del volumen, pero no tiene en cuenta las propiedades de difusión de los límites. Por lo tanto, el resultado sólo puede ser una aproximación del momento de transición y no es tan preciso como sea necesario para evitar las desventajas mencionadas con anterioridad cuando no determinan con precisión el momento de transición. Además, el volumen de una habitación a menudo no se conoce y no puede ser fácilmente extraído de una respuesta al impulso medida.
Otros enfoques conocidos ignoran completamente el medio ambiente y definen el momento de transición a ser simplemente 80ms, véase por ejemplo en la referencia de la técnica anterior [5]. Este número, sin embargo, está totalmente separado de las características de la habitación o una respuesta al impulso medida y, por lo tanto, es demasiado inexacto para el propósito de separar la reverberación tardía del recordatorio de la respuesta al impulso.
La presente invención, de acuerdo con las realizaciones, ofrece, además de la mejora de procesamiento de señales de audio también un enfoque mejorado para determinar el momento de transición entre las reflexiones y la reverberación tardía en una respuesta al impulso de la habitación dando una determinación más precisa del momento de transición. Las realizaciones, de acuerdo con lo descripto más adelante, proporcionan una posibilidad simple y eficaz para calcular el momento de transición de una respuesta al impulso medida por el uso de un análisis de FFT.
La Fig. 7 muestra un diagrama de flujo de un método para determinar un momento de transición entre las reflexiones tempranas y la reverberación tardía en una respuesta al impulso de la habitación, de acuerdo con una realización de la invención. Para determinar el momento de transición de las reflexiones tempranas a la reverberación tardía, en un primer paso 500 se determina una distribución de tiempo-frecuencia de la energía acústica. Por ejemplo, de acuerdo con las realizaciones el alivio del decaimiento de energía (E (t, f), EDR) se puede calcular en el paso 500. El EDR se puede calcular directamente a partir de una (por ejemplo, binaural) respuesta al impulso ambiente medida y se puede ser interpretar como una expansión de dominio de frecuencia de la curva de caída de energía comúnmente utilizado (integración Schroeder, EDC (d)) que muestra la energía restante en la respuesta al impulso después de un tiempo t. En lugar de utilizar la respuesta al impulso de banda ancha, el EDR se deriva de una representación tiempo-frecuencia y se pueden utilizar muchas representaciones de tiempo-frecuencia diferentes para este propósito. Una vez que la distribución de tiempo-frecuencia de la energía acústica se ha determinado en el paso 500, en el paso 502 se determina una medida de correlación entre la energía acústica en un bloque de tiempo de la distribución de tiempo-frecuencia y la energía acústica en general en un estado inicial. En el paso 504 se determina si la medida de correlación alcanza un umbral definido (por ejemplo, cae por debajo del umbral definido) o no. Si no alcanza el umbral, el método pasa al paso 506 donde se selecciona el siguiente bloque de tiempo y la distribución siguiente el bloque de tiempo actual y los pasos 502 y 504 se repiten para el siguiente bloque de tiempo. Así, de acuerdo con los pasos 502 a 506, se utiliza una medida de correlación para calcular el valor de correlación entre cada bloque de tiempo del EDR determinado en el paso 500 con la energía total en el estado inicial. Se ha alcanzado el momento de transición cuando la medida de correlación alcanza el umbral definido (por ejemplo, cae por debajo del umbral definido). En otras palabras, cuando se determina en el paso 504 que un bloque de tiempo actual de la medida de correlación es inferior al umbral, el método pasa al paso 508 donde el tiempo del bloque de tiempo actual es la salida como el momento de transición.
En lo que sigue, se describirá con más detalle una realización del enfoque de la invención. Inicialmente, una respuesta al impulso binaural medido se puede tomar como una entrada para el cálculo del momento de transición. Entonces, se emplea una distribución Page o Levin para el cálculo del alivio del decaimiento de energía (EDR). La distribución de Page hace referencia a la derivada del último intervalo de funcionamiento y la distribución de Page de la señal en tiempo inverso se llama la distribución Levin (véase también la referencia de la técnica anterior [2]). Esta distribución describe un espectro de potencia instantánea, y el EDR de la respuesta al impulso h(t) (véase, por ejemplo, la Fig. 5.) se calcula de acuerdo con lo presentado a continuación:
Figure imgf000010_0001
donde
E(t, w) alivio del decaimiento de energía,
h(T) respuesta al impulso de la habitación,
w 2pF.
El cálculo de acuerdo con la ecuación anterior se inicia en el sonido 301 directo (véase la Fig. 5), y al aumentar el tiempo el alivio del decaimiento de energía contiene reflexiones menos distintas y una reverberación más estocástica. De acuerdo con la realización descripta, el alivio del decaimiento de energía se calcula para bloques de tiempo que tienen una longitud de 1 ms para facilidad de cálculo. Por medio de la funcionalidad descripta con anterioridad, la distribución de tiempo-frecuencia de la energía acústica se determina de acuerdo con lo descripto con respecto al paso 500 en la Fig. 7.
Después de esto, de acuerdo con lo descripto con respecto a los pasos 502 a 506 en la Fig. 7, se determina la medida de correlación p(T) que está basada en la correlación de producto-momento de Pearson (también conocido como coeficiente de correlación). En forma más específica, se determina la correlación de la energía acústica para cada bloque de tiempo con la energía total en el estado inicial, de acuerdo con las realizaciones, de acuerdo con lo presentado a continuación:
Z U(E( 1, w) - E( 1, w)) • Z u(E(t, w) - E(t, w))
P(t) = r _ r _ 2
J z u(E(1, w) - E(1, w))2 • J z u(E(t, w) - E(t, w))2
donde
E(1,w) = alivio del decaimiento de energía en la frecuencia f
E(1,w) = valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía de intervalo completo inicial,
E(t, w) = alivio del decaimiento de energía en la frecuencia f a partir de un tiempo t,
E(t,w) = valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía de intervalo completo a partir del tiempo t
w = 2pf
La correlación anterior describe la similitud de la decadencia que incluye el estado inicial y el decaimiento partiendo en cualquier tiempo t. Se calcula a partir del EDR de banda ancha, por el uso del intervalo de frecuencias del EDR para el cálculo, lo que de ese modo compara la situación energética inicial completa con la situación en el tiempo t.
La presente invención no se limita al cálculo de la correlación a lo largo de todas las frecuencias. Más bien, la correlación también se puede calcular en un intervalo de frecuencia predefinida. El intervalo de frecuencia se puede determinar a partir de la señal de audio a ser procesada. Por ejemplo, para señales de audio específicas, el intervalo de frecuencias puede estar limitado a un intervalo predefinido, por ejemplo, el intervalo de frecuencias audibles. De acuerdo con las realizaciones, el intervalo de frecuencia puede ser de 20 Hz a 20 kHz. Se hace notar que también se pueden seleccionar otros intervalos, por ejemplo, por medio de estudios empíricos.
De acuerdo con una realización, se puede utilizar una implementación eficaz basada en FFT del EDR. Se aplica una ventana que tiene una longitud efectiva de la respuesta al impulso medida, y se supone que una respuesta al impulso medida tiene una longitud efectiva de 213 que es igual a 8192 contenedores de frecuencia. Durante el cálculo, esta ventana se desplaza por la longitud discreta de un solo bloque de tiempo, y el final de la ventana es rellenado con ceros. De acuerdo con las realizaciones, se utiliza una longitud de bloque de tiempo de 1 ms, y por un cálculo simple y eficaz del EDR se aplica el siguiente enfoque:
(1) Se toma la longitud entera eficaz de la respuesta al impulso medida para calcular el espectro de FFT, y los valores absolutos se elevan al cuadrado para dar E (1,w).
(2) Hasta que se alcanza el final de la respuesta al impulso, la ventana se mueve por la longitud de bloque de tiempo discreto de 1 ms hacia el final de la respuesta al impulso, las muestras en la ventana se rellenan con ceros hasta la longitud efectiva (es decir, las muestras más allá de la longitud efectiva se hacen cero), y luego se calcula el espectro de FFT, que da E (t,w).
El enfoque anterior es ventajoso, ya que no se requiere ningún banco de filtros adicional o similar para el cálculo de banda estrecha del EDR; sólo se requiere un desplazamiento de la ventana. La Fig. 8 muestra un ejemplo para un alivio del decaimiento de energía logrado para una respuesta al impulso de acuerdo con el enfoque basado en FFT descripto con anterioridad.
De acuerdo con lo descripto en la Fig. 7 con respecto a los pasos 504 y 508, la correlación determinada en la forma descripta con anterioridad será comparada a un umbral predefinido. Cuanto menor sea el umbral, más el momento de transición se mueve hacia el final de la respuesta al impulso. Por ejemplo, para las respuestas al impulso binaural, si el umbral se elige para que sea 1/e ~ 0,3679 (véase también la referencia de la técnica anterior [2]), la transición es demasiado temprana en algunos ángulos azimutales, dado que la correlación cae por debajo del umbral ya antes de que ocurriera o incidiera la primera reflexión. Sin embargo, dado que se sabe que el momento de transición debe ser más tarde de la hora de llegada de la primera reflexión, debido a que la primera reflexión es claramente distinta y puede no ser segura para la reverberación difusa tardía, de acuerdo con las realizaciones, el umbral no se define como un umbral fijo. Más bien, de acuerdo con el enfoque de la invención, el umbral se define de manera tal que es dependiente de la correlación en el momento que incide de la primera reflexión. Con esta definición, se asegura que la primera reflexión siempre se encuentre antes que el momento de transición. De acuerdo con las realizaciones, el momento de transición, de acuerdo con lo mostrado en el paso 508, se considera que se alcanza cuando se aplica lo siguiente:
p(t) = c • p(tF)
donde
p(tF) = medida de correlación para la seleccionada de las reflexiones tempranas,
íf = índice de tiempo en el que la seleccionada de las reflexiones tempranas después de que incide el sonido directo,
c = el valor constante que está basado en -e, siendo e el número de Euler.
De acuerdo con las realizaciones, el valor constante puede ser p, sin embargo, la presente invención no se limita a este valor. De acuerdo con las realizaciones, el valor constante se puede aproximar por P, por ejemplo, por medio del redondeo o truncando de p con respecto a un lugar decimal predefinido (véase a continuación).
En la realización descripta, tF es el índice del bloque de tiempo donde la primera reflexión después de que incide el sonido directo.
La Fig. 9 representa la determinación del momento de transición de acuerdo con el enfoque de la invención en el que el umbral se calcula dependiendo de la respuesta al impulso por la multiplicación de la correlación en el punto de incisión de la primera reflexión y un valor fijo o constante de 1/e. La amplitud de la respuesta 600 al impulso de la habitación se muestra sobre el número de muestras, y también se indica una primera reflexión 602. La forma 604 de onda indica los valores de correlación obtenidos por aplicación de la ecuación (2). En 606 se muestra el valor de correlación en la primera reflexión que, en el ejemplo representado, tiene un valor de 0,58. Además, el umbral fijado convencionalmente utilizado de 1/e se muestra en 608. El valor 606 de correlación para la primera reflexión y el valor fijo original de 1/e, se aplican a un multiplicador 610 que genera el nuevo umbral que depende del valor de correlación en la primera reflexión y, en la realización descripta tiene un valor de 0,21 de acuerdo con lo mostrado en 612. Por lo tanto, en comparación con los enfoques convencionales, el punto 614 de transición se mueve además hacia la derecha de modo que todas las muestras siguientes el punto 614 de transición se consideran ahora reverberación 304 tardía y todas las muestras anteriores se consideran reflexión 302 temprana. Se puede observar que el tiempo 614 de decisión resultante es más robusto. Por ejemplo, en una respuesta al impulso de la habitación binaural esto significa que el momento de transición calculada es mucho más estable a lo largo del ángulo azimutal. Esto se puede observar a partir de una comparación de las Figs. 10 y 11. La Fig. 10 muestra los tiempos de transición cuando se aplica el enfoque descripto en la referencia de la técnica anterior [1] para el canal 700 izquierdo y el canal 702 derecho para una respuesta al impulso de la habitación binaural medida por el uso de la aplicación eDc descripta con anterioridad pero con un umbral fijo de 1/e. Una dependencia de la oreja y el ángulo azimutal es claramente visible, así como la profundidad en el momento de transición a menos de 10 ms que se deben al hecho de que la correlación p(t) cae por debajo del umbral antes de que incida la primera reflexión. La Fig. 11 muestra el momento de transición para el canal 700 izquierdo y el canal 702 derecho cuando se calcula de acuerdo con el enfoque de la invención. Se puede observar que el momento de transición resultante es mucho menos dependiente de la oreja y el ángulo azimutal en comparación con el enfoque convencional explicó con respecto a la Fig. 10.
De acuerdo con las realizaciones, se considera que el momento de transición se alcanza cuando la correlación cae por debajo de o es igual al valor umbral para la primera vez y no aumenta de nuevo por encima del umbral después. El valor de tiempo que está asociado con este ejemplo en la función de correlación calculado es el tiempo en el que se considera la reverberación tardía de la respuesta al impulso para comenzar. De acuerdo con el enfoque de la invención, el tiempo de incisión de la primera reflexión se puede determinar por un operador de curtosis en funcionamiento, de acuerdo con lo descripto en la referencia de la técnica anterior [6]. En forma alternativa, la primera reflexión se puede detectar por otros métodos, por ejemplo, por una detección de umbral o por una detección de ataques tal como se describe, por ejemplo, en la referencia de la técnica anterior [7].
De acuerdo con las realizaciones, e-1 = 0,3679 se utiliza como un valor para indicar una baja correlación en los procesos estocásticos como se indica, por ejemplo, también en la referencia de la técnica anterior [1]. Según las realizaciones, este valor se utiliza con cuatro dígitos decimales de manera tal que e-1 se aproxima como 0,3679. De acuerdo con otras realizaciones, también se pueden utilizar más o menos dígitos decimales y se ha observado que el momento de transición detectada cambia en consecuencia con la desviación desde el número exacto de e-1. Por ejemplo, cuando se utiliza el valor de 0,368 esto se traduce sólo en cambios mínimos en el momento de transición de 1 ms de abajo.
De acuerdo con las realizaciones adicionales, la respuesta al impulso puede ser de banda limitada, y en este caso, el EDR se puede calcular en un intervalo de frecuencia limitado y también la correlación puede ser calculada sobre el intervalo de frecuencias limitado del EDR. También se pueden utilizar transformadas de frecuencia alternativa o bancos de filtros, por ejemplo, enfoques que operan completamente en el dominio de FFT, con el consiguiente ahorro de transformaciones adicionales, por ejemplo cuando se utiliza con base de FFT de filtrado/convolución.
Se observa que en la descripción anterior de las realizaciones, se ha hecho referencia a un valor del valor de correlación para la primera reflexión. Sin embargo, otras realizaciones pueden utilizar un valor de correlación calculado para otra de las reflexiones tempranas.
De acuerdo con lo mencionado con anterioridad, el enfoque de la invención, de acuerdo con las realizaciones se puede utilizar en un renderizador binaural para el procesamiento de señales de audio binaurales. A continuación se describirá una realización del procesamiento binaural de señales de audio. El procesamiento binaural se puede llevar a cabo como un proceso descodificador de la conversión de la señal decodificada en una señal de mezclado descendente binaural que proporciona una experiencia de sonido envolvente cuando se escucha con auriculares.
La Fig. 12 muestra una representación esquemática de un renderizador 800 binaural para el procesamiento binaural de señales de audio de acuerdo con una realización de la presente invención. La Fig. 12 también proporciona una visión general del procesamiento de dominio de QMF en el renderizador binaural. En una entrada 802, el renderizador 800 binaural recibe la señal de audio a ser procesada, por ejemplo, una señal de entrada que incluye N canales y 64 bandas de QMF. Además, el renderizador 800 binaural recibe un número de parámetros de entrada para controlar el procesamiento de la señal de audio. Los parámetros de entrada incluyen la binaural respuesta 804 al impulso de la habitación (BRIR) para los canales 2xN y 64 bandas de QMF, una indicación 806 Kmáx de la banda máxima que se utiliza para la convolución de la señal de entrada de audio con la parte de reflexión 804 temprana de las BRIR, y los parámetros del reverberador 808 y 810 se ha mencionado con anterioridad (RT60 y la energía de reverberación). El renderizador 800 binaural comprende un renderizador 81 de convolución rápida para el procesamiento de la señal de audio de entrada 802 con la parte temprana de las BRIR 804 recibidas. El procesador 812 genera en una salida de la señal 814 temprana procesada incluye dos canales y bandas Kmáx QMF. El renderizador 800 binaural comprende, además de la rama tramitación anticipada que tiene el procesador de convolución 812 rápida, también una rama de reverberación que incluye dos reverberadores 816A y 816b cada reciben como parámetro de entrada la información 808 RT60 y la información 810 de energía de reverberación. La rama de reverberación incluye además un procesador 818 de mezclado descendente estéreo y un procesador 820 de análisis de correlación en donde ambos reciben la señal 802 de audio de entrada. Además, se proporcionan dos etapas 821a y 821b de ganancia entre el procesador 818 de mezclado descendente estéreo y los respectivos reverberadores 816a y 816b para controlar la ganancia de un mezclado descendente la señal 822 proporcionada por el procesador 818 de mezclado descendente estéreo. El procesador de mezclado 818 descendente estéreo proporciona sobre la base de la señal de entrada 802 la señal 822 de mezclado descendente que tiene dos bandas de 64 y bandas de QMF. La ganancia de las etapas de ganancia 821a y 821b está controlada por señales respectivas 824a y 824b de control proporcionadas por el procesador 820 de análisis de correlación. La ganancia controla la señal de mezclado descendente que se introduce en los reverberadores 816a y 816b respectivos para generar señales respectivas 826a, 826b de reverberado. La señal 814 temprana procesada y las señales 826a, 826b reverberadas son recibidas por un mezclador 828 que combina las señales recibidas en la señal 830 de audio de salida que tiene dos canales y 64 bandas de QMF. Además, de acuerdo con la presente invención, el procesador 812 de convolución rápida y los reverberadores 816a y 816b reciben un parámetro 832 de entrada adicional que indica la transición en la respuesta 804 al impulso de la habitación de la parte temprana a la reverberación tardía determinado de acuerdo con lo discutido con anterioridad.
El módulo 800 de renderizador binaural (por ejemplo, el renderizador 236 binaural de la Fig. 2 o la Fig. 4) tiene como entrada 802 la secuencia de datos descodificada. La señal es procesada por un banco de filtros de análisis de QMF de acuerdo con lo indicado en la norma ISO/IEC 14496-3:2009, 4.B.18.2 subcláusula con las modificaciones indicadas en la norma ISO/IEC 14496-3:2009, subcláusula 8.6.4.2. El módulo de procesador 800 también puede procesar datos de entrada de dominio de QMF; en este caso el de filtros de análisis se puede omitir. Las respuestas al impulso de la habitación binaurales (BRIR) 804 se representan como filtros de dominio de QMF complejos. La conversión del dominio del tiempo las respuestas al impulso de la habitación binaurales al complejo representación filtro QMF se describe en la norma ISO/IEC FDIS 23003-1:2006, Anexo B. Las BRIR 804 se limitan a un cierto número de intervalos de tiempo en el dominio QMF complejo, que contienen sólo la parte temprana de reflexión 301, 302 (véase la Fig. 5) y la reverberación 304 difusa tardía no está incluida. El punto 832 de transición de las reflexiones tempranas de reverberación tardía se determina de acuerdo con lo descripto con anterioridad, por ejemplo, por un análisis de la BRIR 804 en un paso de procesamiento previo del procesamiento binaural. Las señales de audio de dominio de QMF 802 y las BRIR de dominio de QMF 804 son entonces procesadas por un Convolución rápida banda a banda 812 para realizar el procesamiento binaural. Un dominio de QMF reverberador 816a, 816b se utiliza para generar un dominio de reverberación tardía de 2 canales QMF 826a, 826b. El módulo 816a, 816b de reverberación utiliza un conjunto de reverberación dependiente de la frecuencia 808 y los valores 810 de energía para adaptar las características de la reverberación. La forma de onda de la reverberación está basada en un equipo 818 estéreo de mezclado descendente de la señal 802 de entrada de audio y se escala en forma 821a, 821b adaptativa en amplitud en función de un análisis 820 de correlación de la señal 802 de audio multi-canal. El resultado del dominio de 2 canales de QMF convolucional 814 y el dominio de 2 canales QMF 816a, 816b de reverberación se combinan luego 828 y finalmente, dos bancos de filtros de síntesis QMF calculan las señales 830 de salida de dominio de tiempo binaural de acuerdo con lo indicado en la norma ISO/IEC 14496-3:2009, subsección 4.6.18.4.2. El renderizador también puede producir datos de salida de dominio QMF; luego se omite el banco de filtros de síntesis.
Definiciones
Las señales 802 de audio que se introducen en el módulo 800 de renderizador binaural de aquí en adelante se conocen como señales de entrada. Las señales 830 de audio que son el resultado del procesamiento binaural se conocen como señales de salida. Las señales 802 de entrada del módulo 800 de renderizador binaural son señales de salida de audio del decodificador de núcleo (véase, por ejemplo las señales 228 en la Fig. 2). Se utilizan las siguientes definiciones de variables:
Figure imgf000013_0001
Figure imgf000014_0001
Procesamiento
A continuación se describe el procesamiento de la señal de entrada. El módulo de renderizador binaural opera en cuadros contiguos, no solapados de longitud L = 2048 muestras en el dominio de tiempo de las señales de audio de entrada y salidas de un marco de L muestras por marco de entrada de la longitud del procesado L.
(1) Inicialización y procesamiento previo
La inicialización del bloque de procesamiento binaural se lleva a cabo antes de que se lleve a cabo el procesamiento de las muestras de audio suministradas por el decodificador del núcleo (véase, por ejemplo, el decodificador de 200 en la Fig. 2). La inicialización se compone de varios pasos de procesamiento.
El módulo del reverberador 816a, 816b tiene un conjunto dependiente de la frecuencia de la reverberación 808 y valores de energía 810 como parámetros de entrada. Estos valores se leen desde una interfaz en la inicialización del módulo de procesamiento binaural 800. Además, el momento de transición 832 de las reflexiones tempranas y finales de la reverberación en muestras de dominio de tiempo que se lee. Los valores se pueden almacenar en un archivo binario escrito con 32 bits por muestra, valores de coma flotante, ordenamiento little-endian. Los valores de lectura que se necesitan para el procesamiento se indican en la siguiente tabla:
Figure imgf000014_0002
Las respuestas 804 al impulso de la habitación binaural se leen a partir de dos archivos dedicados que almacenan individualmente las BRIR de los oídos izquierdo y derecho. Las muestras en el dominio de tiempo de las BRIR se almacenan en archivos enteros de onda con una resolución de 24 bits por muestra y 32 canales. El orden de BRIR en el archivo está de acuerdo con lo indicado en la siguiente tabla:
Figure imgf000015_0003
Si no hay BRIR medida en una de las posiciones de los altavoces, el canal correspondiente en el archivo de onda contiene cero valores. Los canales LFE no se utilizan para el procesamiento binaural.
Como un paso de procesamiento previo, el conjunto dado de respuestas al impulso de la habitación binaurales (BRIR) se transforma de filtros de dominio de tiempo al dominio de filtros QMF de valor complejo. La implementación de los filtros de dominio de tiempo dados en el dominio de QMF de valor complejo se realiza de acuerdo a la norma ISO/IEC FDIS 23003-1:2006, Anexo B. Los coeficientes del filtro prototipo para la conversión de filtro se utilizan de acuerdo con ISO/IEC FDIS 23003 -1:2006, Anexo B, Tabla B.1. La representación en el dominio de tiempo hVh =
Figure imgf000015_0001
J
con 1 £ v £ L t[s.ns se procesa para obtener una valorada filtro de dominio QMF complejo
Figure imgf000015_0002
= h^'k ••• hn]Ni con
1 £ n £ L , .
(2) Procesamiento de la señal de audio
El bloque de procesamiento de audio del módulo 800 de renderizador binaural obtiene muestras de audio de dominio 802 de tiempo para N n canales de entrada desde el decodificador núcleo y genera una señal 830 de salida binaural que consiste en N out = 2 canales.
El tratamiento tiene como entrada
• los datos 802 de audio decodificados desde el decodificador núcleo,
• el complejo dominio de representación de QMF de la parte de la reflexión 804 temprana de la BRIR fijo, y
• el parámetro dependiente de la frecuencia 808, 810, 832 fija que se utiliza por el 816a reverberador de dominio de QMF, 816b para generar la reverberación 826a, 826b tardía.
(a) Análisis de QMF de la señal de audio
Como el primer paso de procesamiento, las transformadas del módulo renderizador binaural L = 2048 muestras en el dominio de tiempo de la w¡n Canales de señal de entrada el dominio del tiempo (que viene del decodificador del núcleo) [ E h i yCh N ] = y di a una Nin Representación de la señal de dominio de QMF-canal 802 de dimensión Ln = 32 intervalos de tiempo de QMF (Indicador de la ranura n ) Y K = 64 bandas de frecuencia (índice de banda k).
Un análisis de QMF de acuerdo con lo indicado en la norma ISO/IEC 14496-3:2009, 4.B.18.2 subcláusula con las modificaciones establecidas en la norma ISO/IEC 14496-3:2009, subsección 8.6.4.2. se lleva a cabo en un fotograma de la señal de dominio de tiempo yVh para obtener un marco de la señal de dominio de QMF y ^ 9 d N. ] = y nh con 1 < v < L y 31 < n < L n .
(b) Convolución rápida del dominio de señal de audio QMF y las BRIR de dominio QMF
A continuación, una convolución 812 rápida banda a banda se lleva a cabo para el procesamiento de la señal 802 de audio de dominio de QMF y las BRIR de dominio de QMF 804. Se puede llevar a cabo un análisis FFT para cada banda de frecuencia de QMF para cada canal de la señal 802 de entrada y cada BRIR 804.
Debido a los valores complejos en el dominio de QMF, se lleva a cabo un análisis FFT en la parte real de la representación de la señal de dominio de QMF y un análisis FFT sobre las partes imaginarias de la representación de la señal de dominio de QMF. Los resultados se combinan entonces para formar la señal de dominio final Banda a banda valor complejo pseudo-FFT
y nhk k
= F F T ( ynhk ) = FFT ( * ( ynhk ) ) j • F FT ( 3 ( ynh ))
y los valores complejos BRIR-Banda a banda
k
h ¡ ’k: = FFT ( h"'' k ) = FFT (9<i(h ¡ ''k ) ) j • F FT ( 3 ( h 1n'
))
para el oído izquierdo
k
h h n 2 ’,k : = FFT ( h 2'' k ) = FFT (9* (h n ,,k) ) j f f t ( 3 (h n ' )) para el oído derecho.
La longitud de transformada de FFT se determina de acuerdo a la longitud del valor complejo de filtros BRIR de dominio de QMF Ltrans,n y la longitud del marco en intervalos de tiempo de dominio de QMF Ln de manera tal que
L FFT = L trans,n L n — 1 .
Las señales de dominio pseudo-FFT de valores complejos se multiplican con los filtros BRIR dominio pseudo-FFT de valores complejos para formar los resultados de convolución rápida. Un vector mconv se utiliza para indicar qué canal de la señal de entrada corresponde a la que BRIR par en el conjunto de datos BRIR.
Esta multiplicación se realiza banda a banda para todas las bandas de frecuencia de QMF k con 1 £ k £ K max . La banda máxima Kmax está determinado por la banda de QMF que representa una frecuencia de 18 kHz o ya sea la frecuencia de la señal máxima que está presente en la señal de audio del decodificador núcleo
f max = m in ( /max.decoder ,18kH z ) .
Los resultados de la multiplicación de cada canal de entrada de audio con cada par BRIR se resumen en cada banda de frecuencia QMF k conl £ k £ K max resultando en un intermedio Kmax señal de 2 canales de dominio de banda de pseudo-FFT.
ch=N ¡
k
2,conv = ^ yc¿h h^m [ch] son el resultado de convolución de pseudoch=1
Figure imgf000017_0001
banda de frecuencia de dominio de QMF k.
A continuación, una síntesis de FFT banda a banda se lleva a cabo para transformar el resultado de convolución de nuevo al dominio de QMF que resulta en un intermedio Kmax -Banda de 2 canales de la señal de dominio de QMF con
LFFT ranuras de tiemp° ¡Z^onv = [ Zchk1,conv , Zchlconv ] con
Figure imgf000017_0002
Para cada marco de la señal de entrada con QMF dominio L = 32 intervalos de tiempo de una marco de la señal se devuelve un resultado de convolución con L = 32 ranuras de tiempo. Los restantes Lfft- 32 intervalos de tiempo se almacenan y un procesamiento de solape-suma se lleva a cabo en los marcos siguientes.
(c) Generación de reverberación tardía
Como una segunda señal 826a, 826b intermedia una señal de reverberación llamada z^h^ = Z c ^ r^ ,¿,±2 ^ ] es generada por un módulo de reverberador 816a, 816b de dominio de frecuencia. El reverberador 816a, 816b dominio de la frecuencia toma como entrada
• un dominio estéreo QMF de mezclado 822 descendente de un marco de la señal de entrada,
• un conjunto de parámetros que contiene la reverberación dependiente de la frecuencia 808 y los valores 810 de energía.
El reverberador 816a, 816b del dominio de la frecuencia devuelve una cola del dominio de 2 canales QMF de reverberación tardía.
El número de banda máximo utilizado del conjunto de parámetros dependientes de la frecuencia se calcula en función de la frecuencia máxima.
En primer lugar, un dominio 818 de QMF mezclado descendente estéreo de un marco de la señal de entrada y "h se lleva a cabo para formar la entrada del reverberador por una suma ponderada de los canales de señal de entrada. Las ganancias de ponderación están contenidas en la matriz de mezclado descendente Mdmx. Son de valor real y no negativo y la matriz de mezclado descendente es de dimensión Nout X Nin. Contiene un valor distinto de cero, donde un canal de la señal de entrada se asigna a uno de los dos canales de salida.
Los canales que representan las posiciones de los altavoces en el hemisferio izquierdo se asignan al canal de salida a la izquierda y los canales que representan los altavoces situados en el hemisferio derecho se asignan al canal de salida correcto. Las señales de estos canales se ponderan con un coeficiente de 1. Los canales que representan los altavoces situados en el plano medio se asignan a los dos canales de salida de la señal binaural. Las señales de entrada de estos canales se ponderan con un coeficiente
a = 0.7071
Figure imgf000017_0003
Además, un paso de compensación de energía se lleva a cabo en el mezclado descendente. Se adapta la energía banda a banda de un canal de mezclado descendente para ser igual a la suma de la energía banda a banda de los canales de señal de entrada que están contenidos en este canal de mezclado descendente. Esta igualación de energía se lleva a cabo por una multiplicación banda a banda con un coeficiente de valor real
Figure imgf000018_0001
El factor ceq,k se limita a un intervalo de [0,5, 2]. La constante numérica e se introduce para evitar una división por cero. El mezclado descendente también está limitado en banda a la frecuencia fmax; los valores en todas las bandas de frecuencia más alta se llevan a cero.
La Fig. 13 representa en forma esquemática el procesamiento en el reverberador 816a, 816b del dominio de frecuencia del renderizador 800 binaural de acuerdo con una realización de la presente invención.
En el reverberador del dominio de frecuencia de un mezclado descendente mono de la entrada estéreo se calcula por el uso de un mezclador 900 de entrada. Esto se hace aplicando incoherentemente un desplazamiento de fase de 90° en el segundo canal de entrada.
Esta señal mono se alimenta entonces a un bucle 902 de retardo de realimentación en cada banda de frecuencia k, lo que crea una secuencia de descomposición de los impulsos. Le siguen los decorrelacionadores FIR paralelos que distribuyen la energía de la señal de una manera decadente en los intervalos entre los impulsos y crean incoherencia entre los canales de salida. Una descomposición de densidad aparente de filtro se aplica para crear el decaimiento de la energía. Las operaciones de eliminación del grifo del filtro se limitan a cuatro opciones para implementar un correlador escasa y multiplicador libre.
Tras el cálculo de la reverberación de una coherencia (ICC) de corrección entre canales 904 se incluye en el módulo reverberador para cada banda de frecuencia de QMF. En la frecuencia dependen de las ganancias directas gdirect y ganancias de mezcla cruzada gcross paso de corrección ICC sirven para adaptar la CPI.
La cantidad de energía y los tiempos de reverberación para las diferentes bandas de frecuencia están contenidos en el conjunto de parámetros de entrada. Los valores se dan en un número de puntos de frecuencia que se asigna internamente a la K = 64 bandas de frecuencia de QMF.
Se utilizan dos instancias del reverberador de dominio de la frecuencia para calcular la señal intermedio final ,
h ,k
,rev _ r
I Z *
c n
h ,
, k
1,rev , Z *
c n
h ,k
,2,rev I \
La señal zc. es el primer canal de salida de la primera instancia del reverberador, y Zn¿ 2rev es el segundo canal de salida de la segunda instancia del reverberador. Se combinan en el marco de señal de reverberación final que tiene la dimensión de 2 canales, 64 bandas y 32 ranuras de tiempo.
El mezclado 822 descendente estéreo es dos veces escalados 821a, b de acuerdo con una medida 820 de correlación del marco de señal de entrada para asegurar la escala derecha de la salida de reverberador. El factor de escala se define como un valor en el intervalo de vñd , ' DMX, act ’ N N DMX, act linealmente en función de un coeficiente de correlación Ccorr entre 0 y 1 con
Figure imgf000018_0002
donde S n significa la desviación estándar a través de una ranura de tiempo n de canal A , El operador ych,A
{ }denota el conjugado complejo y y es la versión de promedio cero de la señal de dominio de QMF y en el marco de señal real.
ccorr se calcula dos veces: una vez para todos los canales A, B que están activos en el marco de la señal actual F y se incluyen en el canal izquierdo de la mezcla estéreo y una vez para todos los canales A, B que están activos en el marco de la señal actual F y que se incluyen en el canal derecho de la mezcla estéreo.
NüMx.act es el número de canales de entrada que reducen la mezcla a un canal de mezclado descendente A (Número de elemento de matriz en la Ath fila de la matriz de mezclado descendente Mdmx que son diferente de cero) y que están activos en el marco actual.
Los factores de escala son, pues,
lie [ Cscale,1 , Cscale,2 ]
■\JN DMX,act,1 Ccorr ' (N DMX,act,1 — \J N DMX,act,1 ^ , \ ]N DMX,act,2 Ccorr ' (N DMX,act,2 N DMX,act,2 )
Los factores de escala se alisan por medio de marcos de señal de audio por medio de un filtro de paso bajo de 1er orden
Figure imgf000019_0001
Los factores de escala se inicializan en el primer marco de datos de entrada de audio por un análisis de correlación de dominio de tiempo con los mismos medios.
La entrada de la primera instancia reverberador se escala con el factor de escala cscale1 y la entrada de la segunda
instancia reverberador se escala con el factor de escala cscale2.
(d) Combinación de resultados convolucionales y reverberación tardía
A continuación, el resultado convolucional 814, z"]fconv = [ ¿"h* conv, ¿"h* c0nv ] , y la salida 826a reverberador, 826b,
Zdfrev = [ Zh*1rev, ^ch r^rev ] , para un dominio de marco de entrada de audio de QMF se combinan por un proceso de mezcla 828 que suma banda a banda las dos señales. Se debe tener en cuenta que las bandas superiores mayores que Kmax son cero en z"hkconv porque la convolución sólo se lleva a cabo en las bandas hasta Kmax.
La salida de la reverberación tardía se retrasa por un importe de d = ((I irans -20■ 64+1)/64+0.5) 1 ranuras de tiempo en el proceso de mezcla.
El retraso d tiene en cuenta el momento de transición desde las reflexiones tempranas a las reflexiones finales de los años en las BRIR y un retraso inicial del reverberador de 20 ranuras de tiempo de QMF, así como un retraso de análisis de 0,5 intervalos de tiempo para el análisis de QMF de las BRIR para garantizar la inserción de reverberación tardía en n - d ,k un espacio de tiempo razonable. La señal combinada c n
h ,k en una ranura de tiempo n calculado por zc n
h ,k
,conv + z ch,rev .
(e) Síntesis de QMF de la señal de dominio de QMF binaural
Un marco de 2 canales de 32 intervalos de tiempo de la señal de salida en el dominio de QMF ' n
c ,
h k se transforma en un marco de señal de dominio de tiempo de 2 canales con una longitud por la síntesis QMF de acuerdo con la norma ISO/IEC 14496-3:2009, subsección 4.6.18.4.2. lo que da la señal de salida en el dominio tiempo final 830, V
ch [ Zch,1 L Zch,2 ] .
Aunque algunos aspectos se han descripto en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso de procedimiento o una función de un paso de procedimiento. En forma análoga, los aspectos descriptos en el contexto de un paso método también representan una descripción de un bloque o elemento o función de un aparato correspondiente. Algunos o todos los pasos del método pueden ser ejecutados por (o por medio de) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunos uno o más de los pasos del método más importantes pueden ser ejecutados por un aparato de este tipo.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo por el uso de un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un disco Blu-Ray, un CD, una memoria ROM, PROM, EPROM y, EEPROM o FLASH, que tiene señales de control legibles electrónicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de manera tal que se lleve a cabo el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de manera tal que se lleve a cabo uno de los métodos descriptos en el presente documento.
En general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, el código de programa siendo operativo para llevar a cabo uno de los métodos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, ser almacenado en un soporte legible por máquina.
Otras realizaciones comprenden el programa de ordenador para llevar a cabo uno de los métodos descriptos en el presente documento, almacenado en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descriptos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional del método de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa de ordenador para realizar uno de los métodos descriptos en el presente documento. El soporte de datos, el medio de almacenamiento digital o el medio de grabado en forma típica son tangibles y/o no transitorios.
Una realización adicional del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa de ordenador para llevar a cabo uno de los métodos descriptos en el presente documento. El flujo de datos o la secuencia de señales se pueden, por ejemplo, configurar para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización comprende además un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o programado para, que lleve a cabo uno de los métodos descriptos en el presente documento.
Una realización comprende además un ordenador que tiene instalado en el mismo el programa de ordenador para realizar uno de los métodos descriptos en el presente documento.
Una realización adicional de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u ópticamente) un programa de ordenador para realizar uno de los métodos descriptos en el presente documento a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa de ordenador al receptor.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable en campo) se puede utilizar para llevar a cabo todas o algunas de las funcionalidades de los métodos descriptos en el presente documento. En algunas realizaciones, una matriz de puertas programable en campo puede cooperar con un microprocesador para llevar a cabo uno de los métodos descriptos en el presente documento. En general, los métodos se llevan a cabo preferiblemente por cualquier aparato de hardware.
Las realizaciones descriptas con anterioridad son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descriptos en el presente documento serán evidentes para aquéllos con experiencia en la técnica. Por lo tanto, la intención es limitarse sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de la presente.
Literatura
[1] T. Hidaka et al: “A new definition of boundary point between early reflections and late reverberation in room impulse responses”. Forum Acusticum, 2005.
[2] Jot et al: “Analysis and synthesis of room reverberation based on a statistical time frequency model”.
[3] J.S. Abel, P. Huang: “A Simple, Robust Measure of Reverberation Echo Density”. AES Convention, San Francisco, 2006.
[4] R. Stewart, M. Sandler: “Statistical Measures of Early Reflections of Room Impulse Responses”. DAFx, 2007.
[5] Reilly et al: “Using Auralisation for Creating Animated 3-D Sound Fields Across Multiple Speakers”. AES Convention, Nueva York, 1995.
[6] Usher, J.: “An improved method to determine the onset timings of reflections in an acoustic impulse response”. Journal of the Acoustical Society of America, (2010, volumen 127) band 4, p. 172 a 177.
[7] Masri, P.: “Computer Modelling of Sound for Transformation and Synthesis of Musical Signals“. PhD thesis, University of Bristol, 1996.

Claims (10)

REIVINDICACIONES
1. Un método para el procesamiento de una señal (400, 802) de audio de acuerdo con una respuesta (300, 804) al impulso de la habitación, el método comprende:
procesar por separado (402, 404, 406, 422, 424, 812, 816a, 816b) de la señal (400, 802) de audio con una parte (301, 302) temprana de la respuesta (300, 804) al impulso de la habitación y una reverberación (304) tardía de la respuesta (300, 804) al impulso de la habitación o una reverberación sintética, en el que el procesamiento de la señal de audio con la parte temprana de la respuesta al impulso de la habitación comprende una convolución de la señal de audio con un sonido directo y reflexiones tempranas de la respuesta al impulso de la habitación; y
combinar (418, 432, 828) la señal de audio procesada con la parte (414, 428, 814) temprana de la respuesta (300, 804) al impulso de la habitación y la señal (416, 430, 826a, 826b) de audio procesada con la reverberación (304) tardía de la respuesta (300, 804) al impulso de la habitación o con la reverberación sintética;
determinar una transición de la parte (301, 302) temprana a la reverberación (304) tardía en la respuesta al impulso de la habitación (300, 804) como un tiempo cuando una medida de correlación alcanza un umbral,
en el que la medida de correlación describe con respecto a la respuesta (300, 804) al impulso de la habitación la similitud de la decadencia en la energía acústica que incluye el estado inicial y de la decadencia en la energía acústica partiendo en cualquier punto en el tiempo, dicho punto en el tiempo sigue el estado inicial en un intervalo de frecuencia predefinida,
en el que el umbral se establece dependiendo de la medida de correlación para dicho punto en el tiempo, dicho punto en el tiempo siendo un tiempo de uno seleccionado de las reflexiones (302, 602) tempranas en la parte (301, 302) temprana de la respuesta (300, 804) al impulso de la habitación
y en el que la seleccionada de las reflexiones tempranas es la primera reflexión (602).
2. El método de acuerdo con la reivindicación 1, en el que la medida de correlación se calcula de acuerdo con lo presentado a continuación:
XM(g ( 1, Ú - E( 1, ú )) • XM( f (t, ú) - E(t, ú))
P(0 =
J Z v (e(1’ m) - £ (1." ) )2 - J x a(E(t’ M) - £ (t . " ) ) 2
donde
P(t) medida de correlación,
E(1,w) alivio del decaimiento de energía en la frecuencia f,
E(1,w) valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía inicial, E(t, w) alivio del decaimiento de energía en la frecuencia f a partir de un tiempo t,
E(t, w) valor medio a lo largo de todas las frecuencias del alivio del decaimiento de energía de intervalo completo a partir del tiempo t,
w 2pf.
3. El método de acuerdo con la reivindicación 1 o 2, en el que el umbral se determina en base a un valor constante y la medida de correlación para la seleccionada de las reflexiones (302, 602) tempranas.
4. El método de acuerdo con la reivindicación 3, en el que la constante es 1/e, y en el que el umbral se define de acuerdo con lo presentado a continuación:
P(t ) = c • p(tF)
donde
p(tF) = medida de correlación para la seleccionada de las reflexiones (302, 602),
íf = índice de tiempo donde la seleccionada de las reflexiones (302, 602) tempranas después de que el sonido directo (300) incide,
c = el valor constante que está basado en ê siendo e el número de Euler.
5. Un producto de programa de computación no tangible que comprende un medio legible por ordenador que almacena instrucciones que, cuando se ejecuta en un ordenador, llevan a cabo el método de acuerdo con las reivindicaciones 1 a 4.
6. Una unidad de procesamiento de señales, que comprende
una entrada para recibir una señal (400, 802) de audio;
un procesador configurado para el procesamiento de la señal (400, 802) de audio recibida con una parte (301, 302) temprana de una respuesta (300, 804) al impulso de la habitación y con una reverberación (304) tardía del impulso de respuesta (300, 804) de la habitación o una reverberación sintética, en el que, para procesar la señal de audio con la parte temprana de la respuesta al impulso de la habitación, el procesador debe causar una convolución de la señal de audio con un sonido directo y reflexiones tempranas de la respuesta al impulso de la habitación; y
una salida para combinar (418, 432, 828) la señal de audio procesada con la parte (414, 428, 814) temprana de la respuesta (300, 804) al impulso de la habitación y la señal (416, 430, 826a, 826b) de audio procesada con la reverberación (304) tardía de la respuesta (300, 804) al impulso de la habitación o con la reverberación sintética, en una señal de salida;
en la que el procesador está configurado para determinar una transición desde la parte (301, 302) temprana a la reverberación (304) tardía en la respuesta (300, 804) al impulso de la habitación como un tiempo en el que una medida de correlación alcanza un umbral,
en la que la medida de correlación describe con respecto a la respuesta (300, 804) de impulso de la habitación una similitud de un decaimiento en energía acústica que incluye un estado inicial y del decaimiento en la energía acústica a partir de un punto en el tiempo, siguiendo dicho punto en el tiempo el estado inicial de un intervalo de frecuencia predefinida,
en el que el umbral se establece dependiendo de la medida de correlación para dicho punto en el tiempo, dicho punto en el tiempo seleccionándose de una de las reflexiones (302, 602) tempranas en la parte (301, 302) temprana de la respuesta (300, 804) al impulso de la habitación,
y en la que la seleccionada de las reflexiones tempranas es la primera reflexión (602).
7. La unidad de procesamiento de señales de acuerdo con la reivindicación 6, que comprende:
un procesador (402, 404, 422, 812) de la parte temprana para el procesamiento de la señal (400, 802) de audio recibida de acuerdo con la parte (301,302, 602) temprana de la respuesta (300, 804) al impulso de la habitación; y un procesador (406, 424, 816a, 816b) de reverberación tardía para el procesamiento de la señal (400, 802) de audio recibida de acuerdo con la reverberación (304) tardía de la respuesta (300, 804) al impulso de la habitación.
8. Un codificador de audio para codificar una señal de audio, en el que el codificador de audio comprende una unidad de procesamiento de señales de acuerdo con la reivindicación 6 o 7.
9. Un decodificador de audio para decodificar una señal de audio codificada, en el que el decodificador de audio comprende una unidad de procesamiento de señales de acuerdo con la reivindicación 6 o 7.
10. Un renderizador binaural, que comprende una unidad de procesamiento de señales de acuerdo con la reivindicación 6 o 7.
ES19193808T 2013-07-22 2014-07-16 Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural Active ES2933375T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13177362 2013-07-22
EP13189230.9A EP2830043A3 (en) 2013-07-22 2013-10-18 Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer

Publications (1)

Publication Number Publication Date
ES2933375T3 true ES2933375T3 (es) 2023-02-06

Family

ID=48874134

Family Applications (2)

Application Number Title Priority Date Filing Date
ES14747856T Active ES2758757T3 (es) 2013-07-22 2014-07-16 Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural
ES19193808T Active ES2933375T3 (es) 2013-07-22 2014-07-16 Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES14747856T Active ES2758757T3 (es) 2013-07-22 2014-07-16 Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural

Country Status (20)

Country Link
US (6) US10433097B2 (es)
EP (4) EP2830043A3 (es)
JP (1) JP6205493B2 (es)
KR (1) KR101838623B1 (es)
CN (2) CN105580070B (es)
AR (1) AR096995A1 (es)
AU (1) AU2014295254B2 (es)
BR (1) BR112016001249B1 (es)
CA (1) CA2918855C (es)
ES (2) ES2758757T3 (es)
FI (1) FI3594939T3 (es)
MX (1) MX359218B (es)
MY (1) MY176181A (es)
PL (2) PL3594939T3 (es)
PT (2) PT3025327T (es)
RU (1) RU2643867C2 (es)
SG (1) SG11201600367RA (es)
TW (1) TWI549119B (es)
WO (1) WO2015010983A1 (es)
ZA (1) ZA201601114B (es)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN109166587B (zh) * 2013-01-15 2023-02-03 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
KR102150955B1 (ko) * 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
EP3257268B1 (en) * 2015-02-12 2019-04-24 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN114025301B (zh) 2016-10-28 2024-07-30 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
WO2019004524A1 (ko) * 2017-06-27 2019-01-03 엘지전자 주식회사 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
JP6886890B2 (ja) * 2017-08-08 2021-06-16 株式会社竹中工務店 減衰時間分析方法、装置、及びプログラム
US10388268B2 (en) 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
EP3729298A1 (en) 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus systems for unified speech and audio decoding improvements
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN111123202B (zh) * 2020-01-06 2022-01-11 北京大学 一种室内早期反射声定位方法及系统
CN111179958A (zh) * 2020-01-08 2020-05-19 厦门亿联网络技术股份有限公司 一种语音晚期混响抑制方法及系统
JP7447533B2 (ja) * 2020-02-19 2024-03-12 ヤマハ株式会社 音信号処理方法および音信号処理装置
US20230319498A1 (en) * 2020-03-09 2023-10-05 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
CN112146745B (zh) * 2020-09-09 2023-01-03 中国船舶重工集团公司第七一五研究所 一种水池混响时间的精确测量方法
WO2022103290A1 (en) 2020-11-12 2022-05-19 "Stc"-Innovations Limited" Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
CN112652290B (zh) * 2020-12-14 2023-01-20 北京达佳互联信息技术有限公司 产生混响音频信号的方法及音频处理模型的训练方法
CN113375788B (zh) * 2021-05-31 2022-05-20 哈尔滨工程大学 一种基于矩阵填充的水声传感器网络环境数据采集方法
US11705148B2 (en) * 2021-06-11 2023-07-18 Microsoft Technology Licensing, Llc Adaptive coefficients and samples elimination for circular convolution
CN116160955B (zh) * 2023-04-25 2023-08-29 科大讯飞(苏州)科技有限公司 一种车辆主动声浪增强方法、装置、存储介质及设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
EP1072089B1 (en) * 1998-03-25 2011-03-09 Dolby Laboratories Licensing Corp. Audio signal processing method and apparatus
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US7107110B2 (en) * 2001-03-05 2006-09-12 Microsoft Corporation Audio buffers with audio effects
KR101193763B1 (ko) * 2004-10-26 2012-10-24 리차드 에스. 버웬 비자연 반향음
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7715575B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
KR100873639B1 (ko) * 2007-01-23 2008-12-12 삼성전자주식회사 헤드폰에서 출력되는 음상을 외재화하는 장치 및 방법.
JP4769238B2 (ja) * 2007-08-24 2011-09-07 日本電信電話株式会社 信号分離装置、信号分離方法、プログラム及び記録媒体
KR100899836B1 (ko) * 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
US8150051B2 (en) * 2007-12-12 2012-04-03 Bose Corporation System and method for sound system simulation
US20100119075A1 (en) * 2008-11-10 2010-05-13 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
US8831934B2 (en) * 2009-10-27 2014-09-09 Phonak Ag Speech enhancement method and system
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
EP2389016B1 (en) * 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
KR101217544B1 (ko) * 2010-12-07 2013-01-02 래드손(주) 음질 향상 효과를 가지는 오디오 신호를 생성하는 오디오 장치 및 방법
US9154896B2 (en) 2010-12-22 2015-10-06 Genaudio, Inc. Audio spatialization and environment simulation
WO2012093352A1 (en) 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR101174111B1 (ko) * 2012-02-16 2012-09-03 래드손(주) 오디오 신호의 디지털 노이즈를 저감시키는 장치 및 방법
CN102592606B (zh) * 2012-03-23 2013-07-31 福建师范大学福清分校 一种补偿小空间听音声环境的均衡信号处理方法
CN102928067B (zh) * 2012-10-16 2014-12-17 华南理工大学 一种用于测量房间声学参数的系统及方法
WO2014085510A1 (en) * 2012-11-30 2014-06-05 Dts, Inc. Method and apparatus for personalized audio virtualization
JP6433918B2 (ja) * 2013-01-17 2018-12-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
US9674632B2 (en) * 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses

Also Published As

Publication number Publication date
US10972858B2 (en) 2021-04-06
EP3594939B1 (en) 2022-11-02
US20190387353A1 (en) 2019-12-19
RU2016105519A (ru) 2017-08-25
EP2830043A2 (en) 2015-01-28
US20210289311A1 (en) 2021-09-16
TWI549119B (zh) 2016-09-11
MY176181A (en) 2020-07-24
CN105580070A (zh) 2016-05-11
CN110648651A (zh) 2020-01-03
US10433097B2 (en) 2019-10-01
EP2830043A3 (en) 2015-02-18
EP3594939A1 (en) 2020-01-15
FI3594939T3 (fi) 2023-01-31
PT3594939T (pt) 2022-12-07
CA2918855C (en) 2018-07-31
AR096995A1 (es) 2016-02-10
CA2918855A1 (en) 2015-01-29
SG11201600367RA (en) 2016-02-26
AU2014295254A1 (en) 2016-03-10
PL3025327T3 (pl) 2020-04-30
US10721582B2 (en) 2020-07-21
CN105580070B (zh) 2019-10-29
BR112016001249A2 (es) 2017-07-25
US20200322750A1 (en) 2020-10-08
CN110648651B (zh) 2023-08-25
JP6205493B2 (ja) 2017-09-27
EP4125087A1 (en) 2023-02-01
US20160142854A1 (en) 2016-05-19
US11856388B2 (en) 2023-12-26
US20240129687A1 (en) 2024-04-18
TW201523585A (zh) 2015-06-16
BR112016001249B1 (pt) 2022-03-15
ZA201601114B (en) 2017-11-29
US11265672B2 (en) 2022-03-01
US20220159405A1 (en) 2022-05-19
JP2016532149A (ja) 2016-10-13
AU2014295254B2 (en) 2017-01-19
PL3594939T3 (pl) 2023-03-06
KR20160039201A (ko) 2016-04-08
MX359218B (es) 2018-09-19
PT3025327T (pt) 2020-01-06
RU2643867C2 (ru) 2018-02-06
MX2016000849A (es) 2016-04-27
EP3025327A1 (en) 2016-06-01
ES2758757T3 (es) 2020-05-06
WO2015010983A1 (en) 2015-01-29
KR101838623B1 (ko) 2018-03-14
EP3025327B1 (en) 2019-10-02

Similar Documents

Publication Publication Date Title
ES2933375T3 (es) Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural
ES2968380T3 (es) Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio