ES2968380T3 - Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio - Google Patents

Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio Download PDF

Info

Publication number
ES2968380T3
ES2968380T3 ES19197000T ES19197000T ES2968380T3 ES 2968380 T3 ES2968380 T3 ES 2968380T3 ES 19197000 T ES19197000 T ES 19197000T ES 19197000 T ES19197000 T ES 19197000T ES 2968380 T3 ES2968380 T3 ES 2968380T3
Authority
ES
Spain
Prior art keywords
signal
audio
channels
audio signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19197000T
Other languages
English (en)
Inventor
Simone NEUKAM
Jan Plogsties
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2968380T3 publication Critical patent/ES2968380T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

Se describe un método para procesar una señal de audio (504) de acuerdo con una respuesta de impulso de la sala. La señal de audio (504) se procesa (502) con una parte temprana de la respuesta al impulso de la sala separada de una reverberación tardía de la respuesta al impulso de la sala, en donde el procesamiento (514) de la reverberación tardía comprende generar una señal reverberada escalada, la escala (526) dependiendo de la señal de audio (504). Se combinan la primera parte procesada (506) de la señal de audio (504) y la señal reverberada escalada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio
[0001] La presente invención se refiere al campo de la codificación/decodificación de audio, especialmente a la codificación de audio espacial y codificación de objetos de audio espacial, por ejemplo, el campo de los sistemas códec de audio 3D. Las realizaciones de la invención se refieren a un procedimiento para tratar una señal de audio según una respuesta al impulso del ambiente, a una unidad de tratamiento de señales, un renderizador binaural, un codificador de audio y un decodificador de audio.
[0002] Las herramientas de codificación espacial de audio son bien conocidas en la técnica y están normalizadas, por ejemplo, en la norma MPEG-envolvente. La codificación de audio espacial comienza a partir de una pluralidad de entradas originales, por ejemplo, cinco o siete canales de entrada, que se identifican por su colocación en una configuración de reproducción, por ejemplo, como un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de realce de las bajas frecuencias. Un codificador de audio espacial puede deducir uno o más canales de mezcla descendente de los canales originales y, adicionalmente, puede deducir datos paramétricos con relación a las señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canales, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Los uno o más canales de mezcla descendente se transmiten junto con la información lateral paramétrica que indica las señales espaciales a un decodificador de audio espacial para la decodificación de los canales de mezcla descendente y los datos paramétricos asociados con el fin de obtener finalmente los canales de salida que son una versión aproximada de los canales de entrada originales. La colocación de los canales en la configuración de salida puede ser fija, por ejemplo, un formato de 5.1, un formato 7.1, etc.
[0003] Además, las herramientas de codificación de objetos de audio espacial son bien conocidas en la técnica y están normalizadas, por ejemplo, en la norma MPEG SAOC (SAOC = codificación de objetos de audio espacial). A diferencia de la codificación de audio espacial que comienza a partir de los canales originales, la codificación de objetos de audio espacial comienza a partir de objetos de audio que no están automáticamente dedicados para una configuración de reproducción renderizada. Al contrario, la colocación de los objetos de audio en la escena de reproducción es flexible y puede ser configurada por un usuario, por ejemplo, mediante la introducción de cierta información de renderización en un decodificador de codificación de objetos de audio espacial. De forma alternativa o adicional, la información de renderización puede transmitirse como información lateral adicional o metadatos; la información de renderización puede incluir información en cuya posición en la configuración de reproducción se colocará un cierto objeto de audio (por ejemplo, en el tiempo). Con el fin de obtener una cierta compresión de datos, se codifica una serie de objetos de audio mediante un codificador SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte por la mezcla descendente de los objetos según cierta información de mezcla descendente. Además, el codificador SAOC calcula la información lateral paramétrica que representa las señales entre objetos tales como las diferencias de nivel de objeto (OLD), valores de coherencia de objeto, etc. Al igual que en SAC (SAC = Codificación de Audio Espacial), los datos paramétricos entre objetos se calculan para figuras individuales de tiempo/frecuencia. Para una cierta trama (por ejemplo, de 1.024 o 2.048 muestras) de la señal de audio se considera una pluralidad de bandas de frecuencia (por ejemplo 24, 32 o 64 bandas) de manera que se proporcionen datos paramétricos para cada trama y cada banda de frecuencia. Por ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama está subdividida en 32 bandas de frecuencia, el número de figuras de tiempo/frecuencia es 640.
[0004] En los sistemas de audio en 3D puede ser deseable proporcionar una impresión espacial de una señal de audio como si la señal de audio fuera escuchada en un ambiente específico. En tal situación, se proporciona una respuesta al impulso del ambiente del ambiente específico, por ejemplo basándose en una medida del mismo, y se usa para tratar la señal de audio tras la presentación a un oyente. Se puede desear tratar el sonido directo y las reflexiones tempranas en tal presentación separada de la reverberación tardía.
[0005] El documento WO-2012/116934-A1 describe un procesador de audio para generar una señal reverberada a partir de una entrada de componente de señal directa a una entrada. El componente de señal directa se introduce en un reverberador. El componente de señal directa se introduce adicionalmente en un aparato para determinar la medida para un volumen percibido es la medida R para un nivel de reverberación percibido en una señal de mezcla que se introduce en un controlador. El controlador 803 recibe, en una entrada adicional, un valor objetivo para la medida del nivel de reverberación percibido y calcula, a partir del valor objetivo y la medida R, un valor de ganancia. El valor de ganancia se introduce en un manipulador que está configurado para manipular el componente de señal de reverberación emitido por el reverberador. El componente de señal de reverberación manipulado se añade al componente de señal directo.
[0006] El documento US-5.371.799-A describe un sistema para tratar una señal de audio para su reproducción en auriculares en los que la fuente de sonido aparente está situada fuera de la cabeza del oyente y trata la señal como si estuviera formada por una parte de onda directa, una parte de reflexiones tempranas y una parte de reverberaciones. La parte de onda directa de la señal es tratada en filtros cuyos coeficientes de filtro se eligen basándose en el acimut deseado de la posición de la fuente de sonido virtual. La parte de reflexión temprana se hace pasar a través de un banco de filtros conectados en paralelo cuyos coeficientes se eligen basándose en cada acimut de reflexión. Las salidas de estos filtros se hacen pasar a través de escalares para ajustar la amplitud de manera que estimule un intervalo deseado de la fuente de sonido virtual. La parte de reverberación se trata sin ninguna información de posición de la fuente de sonido, usando un generador de números aleatorios, por ejemplo, y la salida se atenúa en un atenuador exponencial que se desvanece. Las salidas de los escalares y los atenuadores se suman a continuación para producir señales de auriculares izquierdo y derecho para su reproducción en los transductores de los auriculares respectivos.
[0007] El documento US-2005/0.100.171-A1 describe un procedimiento, un aparato y un producto de software para tratar una pluralidad de señales de audio de entrada. El aparato acepta una pluralidad de señales de entrada e incluye un reverberador de múltiples entradas y múltiples salidas dispuesto para generar un conjunto de señales de salida que incluye componentes de reverberación retrasados que simulan las reverberaciones que es probable que escuche un oyente en un entorno de audición. El aparato incluye además un filtro de múltiples entradas y dos salidas que acepta las salidas del reverberador y la pluralidad de terminales de entrada, proporcionando salidas para los oídos izquierdo y derecho, y configurado para implementar un conjunto de funciones de transferencia relacionadas con la cabeza correspondientes a un entorno de audición. El aparato es tal que un oyente que audición las salidas a través de los auriculares tiene la sensación de escuchar la pluralidad de señales de audio de entrada como si procedieran de una pluralidad de altavoces dispuestos espacialmente en el entorno de audición en una pluralidad de direcciones correspondientes.
[0008] El documento WO-2010/012.478-A2 describe un dispositivo para generar una señal binaural basándose en una señal de múltiples canales que representa una pluralidad de canales y está destinada a su reproducción por una configuración de altavoces que tiene una posición de fuente de sonido virtual asociada con cada canal. Comprende un reductor de correlación para tratar de forma diferencial, y con ello reducir, una correlación entre al menos uno de entre un canal izquierdo y un canal derecho de la pluralidad de canales, un canal delantero y un canal trasero de la pluralidad de canales y un canal central y un canal no central de la pluralidad de canales, con el fin de obtener un conjunto reducido de canales con semejanza entre ellos; una pluralidad de direccional filtros, un primer mezclador para mezclar salidas de los filtros direccionales que modelizan la transmisión acústica al canal del primer oído del oyente, y un segundo mezclador para mezclar salidas de los filtros direccionales que modelizan la transmisión acústica al canal del segundo oído del oyente. Según otro aspecto, se lleva a cabo una reducción de nivel central para formar la mezcla descendente para un procesador de espacio. Según incluso otro aspecto, un conjunto decreciente de inter similitud de funciones de transferencia relativas a la cabeza se forma.
[0009] El documento EP-1.768.107-A1 describe procesos para controlar, cuando se codifican señales de audio de múltiples canales, el alcance de reverberaciones mediante el ajuste de forma dinámica de los coeficientes de filtro de paso total con las indicaciones de coherencia entre canales; para segmentar una señal en el dominio del tiempo finamente en la región de frecuencia más baja y burdamente en la región de frecuencia más alta; y para controlar una frecuencia de cruce utilizada para el mezclado en base a una tasa de bits, y si la señal original se cuantifica burdamente, para mezclar una señal de mezcla descendente con una señal original en proporciones determinadas por una indicación de coherencia entre canales.
[0010] El objeto subyacente de la presente invención consiste en proporcionar un enfoque aprobado para tratar por separado la señal de audio con una parte temprana y una reverberación tardía de la respuesta al impulso del ambiente que permita lograr un resultado que sea perceptualmente lo más idéntico posible al resultado de una convolución de la señal de audio con la respuesta al impulso completa.
[0011] Este objeto se consigue por medio un procedimiento según la reivindicación 1, una unidad de tratamiento de señal según la reivindicación 11, un renderizador binaural según la reivindicación 15, un codificador de audio según la reivindicación 16 y un decodificador de audio según la reivindicación 17.
[0012] La presente invención se basa en los hallazgos del autor de la invención de que en los enfoques convencionales existe un problema según el cual tras el tratamiento de la señal de audio según la respuesta al impulso del ambiente, el resultado de tratar la señal de audio por separado con respecto a la parte temprana y la reverberación tardía se desvía de un resultado obtenido cuando se lleva a cabo la aplicación de una convolución con una respuesta al impulso completa. La invención se basa además en los hallazgos del autor de la invención de que un nivel adecuado de reverberación depende tanto de la señal de audio de entrada como de la respuesta al impulso, debido a que la influencia de la señal de audio de entrada en la reverberación no se conserva completamente cuando, por ejemplo, se usa un enfoque de reverberación sintético. La influencia de la respuesta al impulso puede considerarse usando las características de reverberación conocidas como parámetro de entrada. La influencia de la señal de entrada puede considerarse mediante un cambio de escala dependiente de la señal para adaptar el nivel de reverberación que se determina basándose en la señal de audio de entrada. Se ha descubierto que mediante este enfoque, el nivel percibido de la reverberación coincide mejor con el nivel de reverberación cuando se usa el enfoque de convolución completo para la renderización binaural.
[0013] (1) La presente invención proporciona un procedimiento según la reivindicación 1.
[0014] Al comparar los enfoques convencionales descritos anteriormente, el enfoque inventivo es ventajoso ya que permite escalar la reverberación tardía sin la necesidad de calcular el resultado convolucional completo o sin la necesidad de aplicar un modelo de audición extensivo y no exacto. Las realizaciones del enfoque inventivo proporcionan un procedimiento sencillo para escalar la reverberación tardía artificial de forma que suene como la reverberación en un enfoque convolucional completo. El escalado se basa en la señal de entrada y no son necesarios un modelo adicional de audición o volumen de reverberación objetivo. El factor de escala puede derivarse en un dominio de frecuencia de tiempo que es una ventaja porque también el material de audio en la cadena de codificador/decodificador está disponible con frecuencia en este dominio.
[0015] (2) De conformidad con la invención según la reivindicación 1, el escalado depende de una condición de uno o más canales de entrada de la señal de audio, cuya condición se determina en base de un número de canales de entrada activos. Esto es ventajoso porque el escalado se puede determinar fácilmente a partir de la señal de audio de entrada con una sobrecarga computacional reducida.
[0016] (3) De conformidad con la invención según la reivindicación 1, el escalado depende de una medida de correlación calculada o predefinida de la señal de audio.
[0017] El uso de una medida de correlación predefinida es ventajoso ya que reduce la complejidad computacional en el proceso. La medida de correlación predefinida puede tener un valor fijo, por ejemplo en el intervalo de 0,1 a 0,9, que se puede determinar empíricamente sobre la base de un análisis de una pluralidad de señales de audio. Por otro lado, calcular la medida de correlación es ventajoso, a pesar de que se necesiten recursos computacionales adicionales, en caso de que se desee obtener una medida más precisa para la señal de audio procesada actualmente de manera individual.
[0018] (4) De conformidad con la invención según la reivindicación 1, generar la señal reverberada escalada comprende aplicar un factor de ganancia, donde el factor de ganancia se determina en base a la condición de uno o más canales de entrada de la señal de audio y en base a la medida de correlación predefinida o calculada para la señal de audio, donde el factor de ganancia se aplica después de procesar la reverberación de la señal de audio.
[0019] Esto es ventajoso porque el factor de ganancia se puede calcular fácilmente sobre la base de los parámetros anteriores y se puede aplicar de manera flexible con respecto al reverberador en la cadena de procesamiento dependiente de los detalles de implementación.
[0020] (5) De conformidad con la invención según la reivindicación 1, el factor de ganancia se determina del siguiente modo:
9 = cu p - (cc - cu)
donde
p = medida de correlación predefinida o calculada para la señal de audio,
cu, cc = factores indicativos de la condición de uno o más canales de entrada de la señal de audio con
cu que se refiere a los canales decorrelacionados totalmente y cc en referencia a los canales totalmente correlacionados.
[0021] (6) Esto es ventajoso porque el factor escala a lo largo del tiempo con el número de canales activos en la señal de audio.
[0022] De conformidad con la invención según la reivindicación 1, cu y cc se determinan del siguiente modo:
10 l^og10(Kí„ ) ____
cu= 10 20 =J K ~
20-logi fí(K in )
Cc = 10<20 =>Kin
donde
kin = número de canales de entrada activos de la señal de audio.
[0023] Esto es ventajoso porque el factor es directamente dependiente del número de canales activos en la señal de audio. Si no hay canales activos, entonces la reverberación se escala con cero, si hay más canales activos, la amplitud de la reverberación se vuelve mayor.
[0024] (7) De conformidad con realizaciones, los factores de ganancia se filtran de paso bajo sobre la pluralidad de tramas de audio, donde los factores de ganancia se pueden filtrar por paso bajo del siguiente modo:
^s,new1^s,old
donde
ts= constante de tiempo del filtro de paso bajo
ti = trama de audio en la trama ti
gs= factor de ganancia suavizado
k= tamaño de trama, y
fs= frecuencia de muestreo.
[0025] Esto es ventajoso porque no se producen cambios abruptos para el factor de escalamiento a lo largo del tiempo.
[0026] (8) De conformidad con las realizaciones que generan la señal reverberada comprende un análisis de correlación de la señal de audio, donde el análisis de correlación de la señal de audio puede comprender la determinación de una trama de audio de la señal de audio de una medida de correlación combinada, donde la medida de correlación combinada se puede calcular combinando los coeficientes de correlación para una pluralidad de combinaciones de canal de una trama de audio, comprendiendo cada trama de audio en uno o más intervalos de tiempo, y donde la combinación de los coeficientes de correlación pueden comprender el promediado de una pluralidad de coeficientes de correlación de la trama de audio.
[0027] Esto es ventajoso porque la correlación se puede describir por un valor único que describe la correlación global de una trama de audio. No es necesario manipular los múltiples valores dependientes de la frecuencia.
[0028] (9) De conformidad con las realizaciones, determinar la medida de correlación combinada puede comprender (i) calcular un valor medio total para cada canal de una trama de audio, (ii) calcular una trama de audio de media-cero sustrayendo los valores medios de los canales correspondientes, (iii) calcular para una pluralidad de combinación de canal el coeficiente de correlación, y (iv) calcular la medida de correlación combinada como el medio de una pluralidad de coeficientes de correlación.
[0029] Esto es ventajoso porque, como se ha mencionado anteriormente, solo un valor de correlación total único por trama se calcula (manejo fácil) y el cálculo se puede realizar similar al coeficiente de correlación de Pearson “estándar”, que utiliza también señales de medio cero y sus desviaciones estándar.
[0030] (10) De conformidad con las realizaciones, el coeficiente de correlación para una combinación de canal se determina del siguiente modo:
1 X¿ X_/-^m[6 y"] • [67]
p [m ,n] =
(N -1 )Y.j ° ( *rnO']) •° ( *nO'])
donde
p[m, n] = coeficiente de correlación,
o(X<m>[j]) = desviación típica en un intervalo de tiempojdel canal m,
o(x<n>[jj) = desviación típica en un intervalo de tiempojdel canal n,
x<m>, X<n>= variables de media cero,
iv [1, N] = bandas de frecuencia,
jv [ i, M] = intervalos de tiempo,
m,nv[1 ,K] = canales,
* = conjugado complejo.
[0031] Esto es ventajoso porque la fórmula bien conocida para el coeficiente de correlación de Pearson se puede utilizar y se transforma a una fórmula dependiente de frecuencia y tiempo.
[0032] (11) De conformidad con los ejemplos que no se reivindican, el procesamiento de la reverberación tardía de la señal de audio comprende el mezclado descendente de la señal de audio y la aplicación de la señal de audio mezclada descendente a un reverberador.
[0033] Esto es ventajoso porque el procesamiento, por ejemplo, en un reverberador, necesita gestionar menos canales y el proceso de mezcla descendente se puede controlar directamente.
[0034] (12) La presente invención proporciona una unidad de procesamiento de señal, según la reivindicación 11.
[0035] (13) De conformidad con las realizaciones, la unidad de procesamiento de señal comprende un analizador de correlación que genera un factor de ganancia que depende de la señal de audio, y una fase de ganancia acoplada a una salida del reverberador y controlada por el factor de ganancia proporcionado por el analizador de correlación.
[0036] (14) De conformidad con las realizaciones, la unidad de procesamiento de señal comprende además al menos uno de un filtro de paso bajo acoplado a la fase de ganancia, y un elemento de retraso acoplado entre la fase de ganancia y un sumador, el sumador acoplado además al procesador de parte anterior y la salida.
[0037] (15) La presente invención proporciona un renderizador binaural, según la reivindicación 15.
[0038] (16) La presente invención proporciona un codificador de audio según la reivindicación 16.
[0039] (17) La presente invención proporciona un decodificador de audio según la reivindicación 17.
[0040] Las realizaciones de la presente invención se describirán con respecto a las figuras adjuntas, en las que:
la Fig. 1 ilustra una visión general de un codificador de audio 3D de un sistema de audio 3D;
la Fig. 2 ilustra una visión general de un decodificador de audio 3D de un sistema de audio 3D;
la Fig. 3 ilustra un ejemplo para implementar un convertidor de formato que puede ser implementado en el decodificador de audio 3D de la Fig. 2;
la Fig. 4 ilustra una realización de un renderizador binaural que se puede implementar en el decodificador de audio 3D de la Fig. 2;
la Fig. 5 ilustra un ejemplo de una respuesta al impulso del ambienteh(t);
la Fig. 6 ilustra diferentes posibilidades para tratar una señal de entrada de audio con una respuesta al impulso del ambiente, donde la Fig. 6(a) muestra el tratamiento de la señal de audio completa, según la respuesta al impulso del ambiente, y la Fig. 6(b) muestra el tratamiento separado de la parte temprana y la parte de reverberación tardía; la Fig. 7 ilustra un diagrama de bloques de una unidad de tratamiento de señales, como un renderizador binaural, que funciona según las enseñanzas de la presente invención;
la Fig. 8 ilustra esquemáticamente el tratamiento binaural de señales de audio en un renderizador binaural según una realización de la presente invención; y
la Fig. 9 ilustra esquemáticamente el tratamiento en el reverberador del dominio de la frecuencia del renderizador binaural de la Fig. 8 según una realización de la presente invención.
[0041] A continuación se describirán realizaciones de la invención del enfoque de la invención. La siguiente descripción se iniciará con una visión general del sistema de un sistema de códec de audio 3D donde se puede implementar el enfoque de la invención.
[0042] Las Fig. 1 y 2 muestran los bloques algorítmicos de un sistema de audio 3D según las realizaciones. Más en concreto, la Fig. 1 muestra una visión general de un codificador de audio 3D 100. El codificador de audio 100 recibe en un circuito de pre-renderizador/mezclador 102, que puede proporcionarse opcionalmente, señales de entrada, más en concreto una pluralidad de canales de entrada que proporcionan al codificador de audio 100 una pluralidad de señales de canales 104, una pluralidad de señales de objetos 106 y metadatos de objetos correspondientes 108. Las señales de objetos 106 tratadas por el pre-renderizador/mezclador 102 (véanse las señales 110) se pueden proporcionar a un codificador SAOC 112 (SAOC = Codificación de Objeto de Audio Espacial). El codificador SAOC 112 genera los canales de transporte SAOC 114 proporcionados a un codificador USAC 116 (USAC = Codificación de Discurso y Audio Unificada). Además, la señal de SAOC-SI 118 (SAOC-SI = información lateral SAOC) también se proporciona al codificador USAC 116. El codificador USAC 116 recibe además señales de objeto 120 directamente desde el pre-renderizador/mezclador, así como señales de canal y señales de objeto prerenderizadas 122. La información de metadatos de objeto 108 se aplica a un codificador oA m 124 (OAM = metadatos de objeto) que proporciona la información de metadatos de objeto 126 comprimido al codificador USAC. El codificador USAC 116, basándose en las señales de entrada antes mencionadas, genera una señal de salida MP4 comprimida, como se muestra en 128.
[0043] La Fig. 2 muestra una visión general de un decodificador de audio 3D 200 del sistema de audio 3D. La señal 128 (mp4) codificada generada por el codificador de audio 100 de la Fig. 1 es recibida en el decodificador de audio 200, más en concreto en un decodificador USAC 202. El decodificador USAC 202 decodifica la señal recibida 128 en las señales de canal 204, las señales de objeto pre-renderizadas 206, las señales de objeto 208 y las señales del canal de transporte SAOC 210. Además, a la información de metadatos de objeto comprimidos 212 y a la señal SAOC-SI 214 se les da salida por el decodificador USAC 202. Las señales de objeto 208 se proporcionan a un renderizador de objetos 216 para producir las señales de objetos renderizados 218. Las señales de los canales de transporte SAOC 210 se suministran al decodificador 220 SAOC para producir las señales de objetos renderizados 222. La meta información de objeto comprimido 212 se suministra al decodificador OAM 224 para producir las señales de control respectivas al renderizador de objeto 216 y al decodificador SAOC 220 para generar las señales de objetos renderizados 218 y las señales de objetos renderizados 222. El decodificador comprende además un mezclador 226 que recibe, como se muestra en la Fig. 2, las señales de entrada 204, 206, 218 y 222 para producir las señales de canal 228. A las señales de canal se les puede dar salida directamente a un altavoz, por ejemplo, un altavoz de canal 32, como se indica en 230. Las señales 228 pueden ser proporcionadas a un circuito de conversión de formato 232 que recibe como entrada de control una señal de la disposición de reproducción que indica la forma en que se convertirán las señales de los canales 228. En la realización representada en la Fig. 2, se supone que la conversión se ha de llevar a cabo de una manera que las señales se puedan proporcionar a un sistema de altavoces 5.1 tal como se indica en 234. Además, los canales de señales 228 pueden ser proporcionados a un renderizador binaural 236 para generar dos señales de salida, por ejemplo, para auriculares, como se indica en 238.
[0044] El sistema de codificación/decodificación que se representa en las Fig. 1 y 2 puede basarse en el códec MPEG-D USAC para codificar señales de canal y objeto (véanse las señales 104 y 106). Para aumentar la eficiencia de codificación de una gran cantidad de objetos, puede usarse la tecnología MPEG SAOC. Existen tres tipos de renderizadores que pueden llevar a cabo las tareas de renderización de objetos a canales, renderizando los canales a auriculares o renderizando los canales a una configuración de altavoces diferente (véase la Fig. 2, referencias 230, 234 y 238). Cuando las señales de objetos se transmiten de manera explícita o se codifican paramétricamente usando SAOC, la información de metadatos objeto correspondiente 108 se comprime (véase la señal 126) y se multiplexa en el tren de bits de audio 3D 128.
[0045] A continuación se describirán con más detalle los bloques de algoritmos para el sistema de audio 3D global mostrados en las Fig. 1 y 2.
[0046] El pre-renderizador/mezclador 102 se puede proporcionar opcionalmente para convertir una escena de entrada de canal más objetos en una escena de canal antes de la codificación. Funcionalmente, es idéntico al renderizador/mezclador de objetos que se describirá a continuación. La pre-renderización de objetos puede ser deseable para asegurar una entropía de señal determinista en la entrada del codificador que sea básicamente independiente de la cantidad de señales de objetos activos simultáneamente. Con la pre-renderización de los objetos, no se requiere ningún objeto de transmisión de metadatos. Se representan señales de objetos discretos en el diseño del canal que el codificador está configurado para usar. Las ponderaciones de los objetos para cada canal se obtuvieron a partir de los metadatos de objeto asociados (OAM).
[0047] El codificador USAC 116 es el códec principal para las señales del altavoz-canal, señales de objetos discretos, señales de mezcla descendente de objeto y señales pre-renderizadas. Se basa en la tecnología MPEG-D USAC. Maneja la codificación de las señales superiores mediante la creación de información de correspondencia de canal y objeto basada en la información geométrica y semántica del canal de entrada y la asignación de objetos. Esta información de correspondencia describe la correspondencia entre los canales de entrada y los objetos con los elementos de canales USAC, tales como elementos pares de canales (CPE), elementos de un solo canal (SCE), efectos de baja frecuencia (LFE) y elementos de canal cuádruple (QCE) y CPE, SCE y LFE, y la información correspondiente se transmite al decodificador. Todas las cargas adicionales como datos SAOc 114, 118 o metadatos de objeto 126 se consideran en el control de la velocidad del codificador. La codificación de objetos es posible en diferentes formas, dependiendo de los requisitos de velocidad/distorsión y los requisitos de interactividad para el renderizador. Según las realizaciones, son posibles las siguientes variantes de codificación de objeto:
• Objetos pre-renderizados: las señales de objetos son pre-renderizadas y mezcladas con las señales del canal 22.2 antes de la codificación. La cadena de codificación tardía ve 22.2 señales de canal.
• Formas de onda de objetos discretos: los objetos se suministran como formas de onda monofónicas al codificador. El codificador usa los elementos de canal individuales (SCE) para transmitir los objetos además de las señales de canal. Los objetos decodificados se renderizan y se mezclan en el lado del receptor. La información de metadatos de objeto comprimidos se transmite al receptor/renderizador.
• Formas de onda de objetos paramétricos: se describen propiedades de los objetos y su relación entre sí mediante parámetros SAOC. La mezcla descendente de las señales de objetos se codifica con USAC. La información paramétrica se transmite junto a esta. El número de canales de mezcla descendente se elige en función del número de objetos y la velocidad de datos global. La información de metadatos de objeto comprimidos se transmite al renderizador SAOC.
[0048] El codificador SAOC 112 y el decodificador SAOC 220 para señales de objeto pueden estar basados en la tecnología MPEG SAOC. El sistema es capaz de recrear, modificar y renderizar una serie de objetos de audio basado en un número menor de canales de transmisión y datos paramétricos adicionales, tales como OLD, IOC (coherencia entre objetos), DMG (ganancias de mezcla descendente). Los datos paramétricos adicionales presentan una velocidad de datos significativamente menor que la requerida para la transmisión de todos los objetos individualmente, haciendo la codificación muy eficiente. El codificador SAOC 112 toma como entrada las señales de objeto/canal en formas de onda monofónicas y produce la información paramétrica (que se empaqueta en el tren de bits de audio 3D 128) y los canales de transporte SAOC (que se codifican usando elementos de un solo canal y transmitidos). El decodificador SAOC 220 reconstruye las señales de objeto/canal de los canales de transporte SAOC decodificados 210 y la información paramétrica 214, y genera la escena de audio de salida basándose en el diseño de la reproducción, la información de metadatos de objeto descomprimido y, opcionalmente, en la información de la interacción del usuario.
[0049] El códec de metadatos de objeto (véase el codificador OAM 124 y el decodificador OAM 224) se proporciona de manera que, para cada objeto, los metadatos asociados que especifican la posición geométrica y el volumen de los objetos en el espacio 3D se codifican de manera eficiente por la cuantificación de las propiedades del objeto en tiempo y espacio. Los metadatos de objeto comprimidos cOAM 126 se transmiten al receptor 200 como información lateral.
[0050] El renderizador de objeto 216 usa los metadatos de objeto comprimidos para generar formas de onda de objetos según el formato de reproducción dado. Cada objeto se renderiza a un canal de salida determinado en función de sus metadatos. La salida de este bloque procede de la suma de los resultados parciales. Si se decodifican tanto el contenido basado en el canal, como también los objetos discretos/paramétricos, las formas de onda basadas en el canal y las formas de onda de los objetos renderizados son mezcladas por el mezclador 226 antes de producir las formas de onda resultantes 228 o antes de suministrar a un módulo post-procesador como el renderizador binaural 236 o el módulo renderizador de altavoz 232.
[0051] El módulo de renderizador binaural 236 produce una mezcla descendente binaural del material de audio de canales múltiples de manera que cada canal de entrada esté representado por una fuente de sonido virtual. El tratamiento se realiza trama a trama en el dominio QMF (Banco de Filtro de Espejo de Cuadratura), y la binauralización se basa en las respuestas de impulso a espacio binaurales medidas.
[0052] El renderizador de altavoz 232 convierte entre la configuración del canal de transmisión 228 y el formato de reproducción deseado. También puede denominarse “convertidor de formato”. El convertidor de formato realiza conversiones para reducir el número de canales de salida, es decir, crea las mezclas descendentes.
[0053] La Fig. 3 muestra un ejemplo para implementar un convertidor de formato 232. El convertidor de formato 232, también denominado renderizador de altavoz, convierte entre la configuración del canal transmisor y el formato de reproducción deseado. El convertidor de formato 232 realiza conversiones a un menor número de canales de salida, es decir, realiza un proceso de mezcla descendente (DMX) 240. El mezclador descendente 240, que opera preferentemente en el dominio QMF, recibe las señales de salida del mezclador 228 y produce las señales del altavoz 234. Puede proporcionarse un configurador 242, también denominado controlador, que recibe, como una entrada de control, una señal 246 indicativa de la distribución de salidas del mezclador, es decir, la disposición para la que se determinan los datos representados por la señal de salida del mezclador 228, y la señal 248 indicativa de la disposición de reproducción deseada. Basándose en esta información, el controlador 242, preferentemente de forma automática, genera matrices de mezcla descendente optimizadas para la combinación dada de formatos de entrada y de salida y aplica estas matrices para el mezclador descendente 240. El convertidor de formato 232 permite configuraciones de altavoces estándar, así como configuraciones aleatorias con posiciones de altavoces no estándar.
[0054] La Fig. 4 ilustra una realización del renderizador binaural 236 de la Fig. 2. El módulo de renderizador binaural puede proporcionar una mezcla descendente binaural del material de audio de canales múltiples. La binauralización puede basarse en las respuestas al impulso del ambiente binaural medidas. Las respuestas al impulso del ambiente pueden considerarse una “huella digital” de las propiedades acústicas de un ambiente real. Las respuestas al impulso del ambiente se miden y se almacenan, y pueden proporcionarse señales acústicas arbitrarias con esta “huella digital”, permitiendo de ese modo al oyente una simulación de las propiedades acústicas del ambiente asociadas con la respuesta al impulso del ambiente. El renderizador binaural 236 puede configurarse o programarse para la renderización de los canales de salida en dos canales binaurales usando funciones de transferencia relacionadas con la cabeza o respuestas al impulso del ambiente binaurales (BRIR). Por ejemplo, para los dispositivos móviles se desea renderización binaural para auriculares o altavoces conectados a dichos dispositivos móviles. En dichos dispositivos móviles, debido a las limitaciones puede ser necesario limitar el decodificador y la complejidad de la renderización. Además de la omisión de decorrelación en dichos escenarios de tratamiento, puede preferirse llevar a cabo primero una mezcla descendente usando un mezclador descendente 250 a una señal de mezcla descendente intermedia 252, es decir, a un menor número de canales de salida que se traduce en un menor número de canales de entrada para el convertidor binaural real 254. Por ejemplo, un material de 22.2 canales puede mezclarse de manera descendente mediante el mezclador descendente 250 a una mezcla descendente intermedia 5.1 o, alternativamente, la mezcla descendente intermedia puede ser calculada directamente por el decodificador SAOC 220 en la Fig. 2 en una especie de modo de “acceso abreviado”. Entonces, la renderización binaural sólo tiene que aplicar diez HRTF (Funciones de Transferencia Relacionadas con la Cabeza) o funciones BRIR para la renderización de los cinco canales individuales en diferentes posiciones en contraste con la aplicación de 44 funciones HRTF o BRIR si los canales de entrada de 22.2 debieran ser renderizados directamente. Las operaciones de convolución necesarias para la renderización binaural requieren una gran cantidad de energía de tratamiento y, por lo tanto, reducir esta energía de tratamiento, obteniendo aún una calidad de audio aceptable, particularmente útil para dispositivos móviles. El renderizador binaural 236 produce una mezcla descendente binaural 238 del material de audio de canales múltiples 228, de manera que cada canal de entrada (con exclusión de los canales LFE) esté representado por una fuente de sonido virtual. El tratamiento puede llevarse a cabo trama a trama en el dominio QMF. La binauralización se basa en las respuestas al impulso del ambiente binaurales medidas, y el sonido directo y las reflexiones tempranas pueden imprimirse en el material de audio a través de un enfoque de convolución en un dominio pseudo-FFT usando una convolución rápida en la parte superior del dominio QMF, mientras que la reverberación tardía puede tratarse por separado.
[0055] La Fig. 5 muestra un ejemplo de una respuesta al impulso del ambienteh(t)300. La respuesta al impulso del ambiente comprende tres componentes, el sonido directo 301, las reflexiones tempranas 302 y la reverberación tardía 304. Por lo tanto, la respuesta al impulso del ambiente describe el comportamiento de las reflexiones de un espacio acústico reverberante cerrado cuando se reproduce un impulso. Las reflexiones tempranas 302 son reflexiones discretas con aumento de la densidad, y la parte de la respuesta al impulso donde las reflexiones individuales ya no pueden ser discriminadas se denomina reverberación tardía 304. El sonido directo 301 se puede identificar fácilmente en la respuesta al impulso del ambiente y se puede separar de las reflexiones tempranas, sin embargo, la transición de la reflexión temprana 302 a la reverberación tardía 304 es menos evidente.
[0056] Como se ha descrito anteriormente, en un renderizador binaural, por ejemplo, un renderizador binaural tal como se representa en la Fig. 2, se conocen enfoques diferentes para el tratamiento de una señal de entrada de audio de canales múltiples según una respuesta al impulso del ambiente.
[0057] La Fig. 6 muestra diferentes posibilidades para tratar una señal de entrada de audio con una respuesta al impulso del ambiente. La Fig. 6(a) muestra el tratamiento de la señal de audio completa, según la respuesta al impulso del ambiente, y la Fig. 6(b) muestra el tratamiento separado de la parte temprana y la parte de reverberación tardía. Como se muestra en la Fig. 6(a) una señal de entrada 400, por ejemplo, una señal de entrada de audio de canales múltiples, se recibe y se aplica a un procesador 402 que está configurado o programado para permitir una convolución completa de la señal de entrada de audio de canales múltiples 400 con la respuesta al impulso del ambiente (véase la Fig. 5) que, en la realización representada, obtiene la señal de salida de audio de 2 canales 404. Como se mencionó anteriormente, este enfoque se considera desventajoso dado que el uso de la convolución para la totalidad de la respuesta al impulso es computacionalmente muy costoso. Por lo tanto, según otro enfoque, como se representa en la Fig. 6 (b), en lugar de tratar toda la señal de entrada de audio de canales múltiples mediante la aplicación de una convolución completa con una respuesta al impulso del ambiente como se ha descrito con respecto a la Fig. 6(a), el tratamiento se separa con respecto a las partes tempranas 301, 302 (véase la Fig. 5) de la respuesta al impulso del ambiente 300, y la parte de reverberación tardía 302. Más en concreto, como se muestra en la Fig. 6(b), se recibe la señal de entrada de audio de canales múltiples 400, sin embargo, la señal se aplica en paralelo a un primer procesador 406 para el tratamiento de la parte temprana, es decir, para el tratamiento de la señal de audio según el sonido directo 301 y las reflexiones tempranas 302 en la respuesta al impulso del ambiente 300 como se muestra en la Fig. 5. La señal de entrada de audio de canales múltiples 400 también se aplica a un procesador 408 para tratar la señal de audio según la reverberación tardía 304 de la respuesta al impulso del ambiente 300. En la realización representada en la Fig. 6(b) la señal de entrada de audio de canales múltiples también se puede aplicar a un mezclador descendente 410 para la mezcla descendente de la señal de canales múltiples 400 a una señal que tiene un menor número de canales. La salida del mezclador descendente 410 se aplica entonces al procesador 408. Las salidas de los procesadores 406 y 408 se combinan en 412 para generar la señal de salida de audio de 2 canales 404'.
[0058] En un renderizador binaural, como se mencionó anteriormente, se puede desear tratar el sonido directo y las reflexiones tempranas por separado de la reverberación tardía, principalmente a causa de la reducción de la complejidad computacional. El tratamiento del sonido directo y las reflexiones tempranas puede, por ejemplo, imprimirse en la señal de audio por un enfoque convolucional llevado a cabo por el procesador 406 (véase la Fig. 6 (b)) mientras que la reverberación tardía puede ser sustituido por una reverberación sintética proporcionada por el procesador 408. La señal de salida global binaural 404' es entonces una combinación del resultado convolucional proporcionado por el procesador 406 y la señal reverberada sintética proporcionada por el procesador 408.
[0059] Este tratamiento también se describe en la referencia de la técnica anterior [1]. El resultado del enfoque anteriormente descrito debe ser perceptualmente lo más idéntico posible idéntico al resultado de una convolución de la respuesta al impulso completa, el enfoque de conversión completa descrito con respecto a la Fig. 6(a). Sin embargo, si una señal de audio o, más en general, un material de audio se convolucionan con el sonido directo y una parte de reflexión temprana de la respuesta al impulso, los diferentes canales resultantes se suman para formar una señal de sonido general que se asocia con la señal de reproducción a un oído del oyente. La reverberación, sin embargo, no se calcula a partir de esta señal general, sino que es en general una señal reverberada de un canal o de la mezcla descendente de la señal de audio de entrada original. Por tanto, los autores de la presente invención han determinado que la reverberación tardía no se ajusta adecuadamente al resultado de la convolución proporcionada por el procesador 406. Se ha descubierto que el nivel adecuado de reverberación depende tanto de la señal de audio de entrada como de las respuestas al impulso del ambiente 300. La influencia de las respuestas de impulso se consigue mediante el uso de características de reverberación como parámetro de entrada de un reverberador que puede ser parte del procesador 408, y estos parámetros de entrada se obtienen de un análisis de respuestas de impulsos medidas como, por ejemplo, el tiempo de reverberación dependiente de la frecuencia y la medida de la energía dependiente de la frecuencia. Estas medidas, en general, pueden determinarse a partir de una única respuesta al impulso, por ejemplo mediante el cálculo de la energía y el tiempo de reverberación RT60 en un análisis de banco de filtros de octava, o son valores medios de los resultados de los análisis de respuesta al impulso múltiple.
[0060] Sin embargo, se ha descubierto que a pesar de estos parámetros de entrada proporcionados al reverberador, la influencia de la señal de audio de entrada en la reverberación no se conserva completamente cuando se usa un enfoque de reverberación sintética como se describe con respecto a la Fig. 6(b). Por ejemplo, debido a la mezcla descendente usada para la generación de la cola de reverberación sintética, se pierde la influencia de la señal de audio de entrada. Por consiguiente, el nivel resultante de la reverberación no es perceptualmente idéntico al resultado del enfoque de convolución completo, especialmente en el caso en que la señal de entrada comprende múltiples canales.
[0061] Hasta el momento, no existen enfoques conocidos que comparen la cantidad de reverberación tardía con los resultados del enfoque de convolución completa o coincidan con el resultado de convolución. Existen algunas técnicas que tratan de evaluar la calidad de la reverberación tardía o cuán natural parece. Por ejemplo, en un procedimiento se define una medida de sonoridad para la reverberación de sonido natural, que predice la sonoridad percibida de reverberación usando un modelo de sonoridad. Este enfoque se describe en la referencia de la técnica anterior [2], y el nivel puede ajustarse a un valor objeto. La desventaja de este enfoque es que se basa en un modelo del oído humano que es complicado e inexacto. También es necesario un volumen objeto para proporcionar un factor de cambio de escala para la reverberación tardía que se podría encontrar usando el resultado convolución completo.
[0062] En otro procedimiento descrito en la referencia de la técnica anterior [3] se usa un criterio de correlación cruzada para pruebas de calidad de reverberación artificial. Sin embargo, esto sólo es aplicable para probar diferentes algoritmos de reverberación, pero no para el audio de canales múltiples, ni para el audio binaural ni para la calificación del cambio de escala de reverberación tardía.
[0063] Otro enfoque posible consiste en usar el número de canales de entrada en el oído considerado como un factor de cambio de escala, sin embargo, esto no produce un cambio de escala perceptualmente correcto, porque la amplitud percibida de la señal de sonido en general depende de la correlación de los diferentes canales de audio y no sólo del número de canales.
[0064] Por lo tanto, de conformidad con el enfoque inventivo se proporciona un procedimiento de cambio de escala dependiente de la señal que se adapta al nivel de reverberación según la señal de audio de entrada. Como se mencionó anteriormente, se desea que el nivel percibido de la reverberación coincida con el nivel de reverberación cuando se usa el enfoque de convolución completo para la renderización binaural, y por lo tanto la determinación de una medida para un nivel adecuado de reverberación es importante para lograr una buena calidad de sonido. Según las realizaciones, una señal de audio se trata por separado con una parte temprana y una reverberación tardía de la respuesta al impulso del ambiente, donde el tratamiento de la reverberación tardía comprende la generación de una señal reverberada con cambio de escala, donde el cambio de escala depende de la señal de audio. La parte temprana tratada de la señal de audio y la señal reverberada con cambio de escala se combinan en la señal de salida. Según una realización, el cambio de escala depende de la condición de los uno o más canales de entrada de la señal de audio que se determina en función del número de canales de entrada activos y según una medida de correlación predefinida o calculada para la señal de audio.
[0065] Según las realizaciones la señal reverberada con cambio de escala se puede generar mediante la aplicación de un factor de ganancia que se determina basándose en la condición de los uno o más canales de entrada de la señal de audio, o basándose en la medida de correlación predefinida o calculada para la señal de audio, o basándose en una combinación de los mismos.
[0066] Según las realizaciones, el tratamiento por separado de la señal de audio comprende el tratamiento de la señal de audio con la parte de reflexión temprana 301, 302 de la respuesta al impulso del ambiente 300 durante un primer proceso, y el tratamiento de la señal de audio con la reverberación difusa 304 de la respuesta al impulso del ambiente 300 durante un segundo proceso que es diferente y separado del primer proceso. El cambio del primer proceso al segundo proceso se produce en el momento de transición. Según realizaciones adicionales, en el segundo proceso la reverberación difusa (tardía) 304 puede ser sustituida por una reverberación sintética. En este caso la respuesta al impulso del ambiente aplicada al primer proceso contiene sólo la parte de reflexión temprana 300, 302 (véase la Fig. 5) y la reverberación difusa tardía 304 no está incluida.
[0067] A continuación se describirá una realización del enfoque de la invención con más detalle según el cual el factor de ganancia se calcula basándose en un análisis de correlación de la señal de audio de entrada. La Fig. 7 muestra un diagrama de bloques de una unidad de tratamiento de señales, como un renderizador binaural. El renderizador binaural 500 comprende una primera rama que incluye el procesador 502 que recibe desde una entrada 504 la señal de audiox[k]que incluye los N canales. El procesador 502, cuando forma parte de un renderizador binaural, trata la señal de entrada 504 para generar la señal de salida 506xConv[k].Más en concreto, el procesador 502 causa una convolución de la señal de entrada de audio 504 con un sonido directo y las reflexiones tempranas de la respuesta al impulso del ambiente que se pueden proporcionar al procesador 502 a partir de una base de datos externa 508 que contiene una serie de respuestas al impulso del ambiente binaurales grabadas. El procesador 502, como se ha mencionado, puede operar basándose en las respuestas al impulso del ambiente binaural proporcionadas por la base de datos 508, produciendo de este modo la señal de salida 502 que tiene sólo dos canales. La señal de salida 506 se proporciona desde el procesador 502 a un sumador 510. La señal de entrada 504 se proporciona además a una rama de reverberación 512 que incluye el procesador del reverberador 514 y un mezclador descendente 516. La señal de entrada de mezcla descendente se proporciona al reverberador 514 que basándose en los parámetros del reverberador, como la reverberación RT60 y la energía de reverberación mantenida en las bases de datos 518 y 520, respectivamente, genera una señal reverberadar[k]en la salida del reverberador 514 que puede incluir sólo dos canales. Los parámetros almacenados en las bases de datos 518 y 520 se pueden obtener a partir de las respuestas al impulso del ambiente binaural almacenadas por un análisis apropiado 522 como se indica en líneas de puntos en la Fig. 7.
[0068] La rama de reverberación 512 incluye además un procesador de análisis de correlación 524 que recibe la señal de entrada 504 y genera un factor de ganancia g en su salida. Además, se proporciona una etapa de ganancia 526 que está acoplada entre el reverberador 514 y el sumador 510. La etapa de ganancia 526 es controlada por el factor de ganancia g, generando de este modo en la salida de la etapa de ganancia 526 la señal reverberada con cambio de escalar<g>[k]que se aplica al sumador 510. El sumador 510 combina la parte tratada temprana y la señal reverberada para proporcionar la señal de saliday[k]que también incluye dos canales. Opcionalmente, la rama de reverberación 512 puede comprender un filtro de paso bajo 528 acoplado entre el procesador 524 y la etapa de ganancia para suavizar el factor de ganancia en una serie de tramas de audio. Opcionalmente, también puede proporcionarse un elemento de retardo 530 entre la salida de la etapa de ganancia 526 y el sumador 510 para retrasar la señal reverberada con cambio de escala de manera que coincida con una transición entre la reflexión temprana y la reverberación tardía en la respuesta al impulso del ambiente.
[0069] Como se describió anteriormente, la Fig. 7 es un diagrama de bloques de un renderizador binaural que trata el sonido directo y las reflexiones por separado de la reverberación tardía. Como se puede ver, la señal de entradax[k]que se trata con los reflexiones directas y tempranas de los resultados de respuesta al impulso del ambiente binaurales da lugar a una señalXconv[k].Esta señal, como se muestra, se envía al sumador 510 para añadirla a un componente de señal de reverberanter<g>[k].Esta señal es generada por el suministro a una mezcla descendente, por ejemplo, una mezcla descendente estéreo, de la señal de entradax[k]al reverberador 514 seguido por el multiplicador o etapa de ganancia 526 que recibe una señal reverberadar[k]de la mezcla descendente y el factor de ganancia g. El factor de ganancia g se obtiene por un análisis de correlación de la señal de entradax[k]llevado a cabo por el procesador 524, y como se mencionó anteriormente se puede suavizar en el tiempo por medio del filtro de paso bajo 528. El componente reverberante con cambio de escala o ponderado puede ser retrasado opcionalmente por el elemento de retardo 530 para que su comienzo coincida con el punto de transición de las reflexiones tempranas a reverberación tardía de modo que en la salida del sumador 510 se obtenga la señal de saliday[k].
[0070] El renderizador binaural de canales múltiples representado en la Fig. 7 introduce una reverberación tardía sintética de 2 canales y para superar los inconvenientes anteriormente expuestos de los enfoques convencionales y según el enfoque de la invención, la reverberación tardía sintética se cambia de escala mediante el factor de ganancia g para que coincida la percepción con un resultado de un enfoque de convolución completa. La superposición de múltiples canales (por ejemplo, hasta 22.2) en el oído de un oyente depende de la correlación. Por este motivo, la reverberación tardía puede cambiarse de escala según la correlación del canal de señal de entrada, y las realizaciones del enfoque de la invención proporcionan un procedimiento de cambio de escala dependiente del tiempo basado en la correlación que determina una amplitud adecuada de la reverberación tardía.
[0071] Para el cálculo de los factores de cambio de escala, se introduce una medida de correlación que se basa en el coeficiente de correlación y según las realizaciones se define en un dominio del tiempo-frecuencia de dos dimensiones, por ejemplo, el dominio QMF. Se calcula un valor de correlación entre -1 y 1 para cada trama de audio multidimensional, cada trama de audio se define por un número de bandas de frecuencia N, un número de intervalos de tiempo M por trama y un número de canales de audio A. Se obtiene un factor de cambio de escala por trama por cada oído.
[0072] A continuación, se describirá con más detalle una realización del enfoque de la invención. En primer lugar, se hace referencia a la medida de correlación usada en el procesador de análisis de correlación 524 de la Fig. 7. La medida de correlación, según esta realización, se basa en el Coeficiente del Producto-Momento de Pearson (también denominado coeficiente de correlación) que se calcula dividiendo la covarianza de dos variablesX, Ypor el producto de sus desviaciones típicas:
E{ ( X - X<) • ( K - y ) }>
P[x,Y] =ax•oY
donde
E{}= operador de valor esperado
P{X,Y}= coeficiente de correlación,
aX’ aY= desviaciones típicas de las variables X,Y
[0073] Este tratamiento según la realización descrita se transfiere a dos dimensiones en un dominio del tiempofrecuencia, por ejemplo, el dominio QMF. Las dos dimensiones son los intervalos de tiempo y las bandas de q Mf . Este enfoque es razonable, porque los datos a menudo se codifican y transmiten también en el dominio del tiempofrecuencia. El operador de expectativa se sustituye con una operación media sobre varias muestras de tiempo y/o frecuencia de modo que la medida de correlación de tiempo-frecuencia entre dos variables cero-mediaxm, Xnen el intervalo de (0, 1 ) se define de la siguiente manera:
1S í S j^ m [6 y] •Xn[ Í ’ 7]
p[m,n] =
(N -1 )Y.j 0 (Xm [í] ) •° (Xn[7'] )
donde
p[m, n] = coeficiente de correlación,
a(x<m>[j]) = desviación típica en un intervalo de tiempojdel canal m,
o(X<n>[j]) = desviación típica en un intervalo de tiempojdel canal n,
x<m>, x<n>= variables de media cero,
iv [1, N] = bandas de frecuencia,
jv [1, M] = intervalos de tiempo,
m,nv[1 ,K = canales,
* = conjugado complejo.
[0074] Después del cálculo de este coeficiente para una pluralidad de combinaciones de canales(m,n)de una trama de audio, los valores dep[m,n,ti]se combinan para una medida de correlación únicapm(ti)tomando la media de (o promediando) una pluralidad de valores de correlaciónp[m,n,t].Se observa que la trama de audio puede comprender 32 intervalos de tiempo QMF, y t<i>indica la trama de audio respectiva. El tratamiento anterior se puede resumir para una trama de audio de la siguiente manera:
(i) En primer lugar, se calcula el valor medio globalx(k)para cada uno de los canaleskde la trama de audio o datos x que tiene un tamaño de[N,M,K],donde según las realizaciones todos los canaleskse mezclan de manera descendente en un canal de entrada del reverberador.
(ii) Se calcula una trama de media cero o datos restando los valoresx(k)de los canales correspondientes.
(iii) Para una pluralidad de combinación de canales(m,n)se calcula el coeficiente de correlación o valor de correlación definidoc.
(iv) Se calcula un valor de correlación mediocmcomo la media de una pluralidad de valores de correlaciónp[m,n](excluyendo los valores calculados erróneamente, por ejemplo una división por cero).
[0075] Según la realización descrita anteriormente el cambio de escala se determinó basándose en la medida de correlación calculada para la señal de audio. Esto es ventajoso, a pesar de los recursos computacionales adicionales necesarios, por ejemplo, cuando se desea obtener la medida de correlación de la señal de audio que se está tratando individualmente.
[0076] Sin embargo, la presente invención no se limita a dicho enfoque. Según otras realizaciones, en vez de calcular la medida de correlación también puede usarse una medida de correlación predefinida. El uso de una medida de correlación predefinida es ventajoso ya que reduce la complejidad computacional en el proceso. La medida de correlación predefinida puede tener un valor fijo, por ejemplo, de 0,1 a 0,9, que se puede determinar empíricamente basándose en un análisis de una pluralidad de señales de audio. En tal caso, el análisis de correlación 524 se puede omitir y la ganancia de la etapa de ganancia puede establecerse por medio de una señal de control apropiada.
[0077] Según las realizaciones, el cambio de escala depende de la condición de los uno o más canales de entrada de la señal de audio que se determina en función del número de canales de entrada activos. Esto es ventajoso debido a que el cambio de escala se puede determinar fácilmente a partir de la señal de audio de entrada con una sobrecarga de cálculo reducida. Por ejemplo, el cambio de escala se puede determinar simplemente determinando el número de canales en la señal de audio original que se mezclan en un canal de mezcla descendente actualmente considerado que incluye un número reducido de canales cuando se compara con la señal de audio original. Alternativamente, el número de canales activos (canales que muestran algún tipo de actividad en una trama de audio actual) submezclados en el canal de mezcla descendente actualmente considerado pueden formar la base para cambiar de escala la señal reverberada. Esto se puede llevar a cabo en el bloque 524.
[0078] A continuación, se describirá en detalle una realización que determina el cambio de escala de la señal reverberada basándose en la condición de los uno o más canales de entrada de la señal de audio y basándose en una medida de correlación (ya sea fija o calculada como se describe anteriormente). Según dicha realización, el factor de ganancia o factor de ganancia o de cambio de escalagse define de la siguiente manera:
9 = cu P ' (cc - cu)
1Q-log10(K in)
cu =10 20
20-log10(t f ín)
<Cc =>10 20<=>Kin
donde
p =coeficiente de correlación predefinida o calculada para la señal de audio,
cu, Cc= factores indicativos de la condición de los uno o más canales de entrada de la señal de audio, refiriéndosecua los canales totalmente no correlacionados yCca los canales totalmente correlacionados,
Kin= número de canales de mezcla descendente activos distintos de cero o fijos.
cu es el factor que se aplica si los canales de mezcla descendente son totalmente no correlacionados (sin dependencias entre canales). Si se usa sólo la condición de los uno o más canales de entradag= cu y el coeficiente de correlación fijo predefinido se establece en cero, cc es el factor que se aplica si los canales submezclados están totalmente correlacionados (las señales son versiones ponderadas (más desfase y desplazamiento) de cada uno). Si se usa sólo la condición de los uno o más canales de entradag= cc, el coeficiente de correlación fijo predefinido se establece en uno. Estos factores describen el cambio de escala mínimo y máximo de la reverberación tardía en la trama de audio (dependiendo del número de canales activos).
[0079] El “número de canal”Knse define, según las realizaciones, de la siguiente manera: una señal de audio de canales múltiples se mezcla descendente con una mezcla descendente estéreo usando una matriz de mezcla descendente Q que define qué canales de entrada se incluyen en cada canal de mezcla descendente (tamaño MD 2, siendo M el número de canales de entrada del material de entrada de audio, por ejemplo, 6 canales para una configuración de 5.1).
[0080] Un ejemplo para la matriz de mezcla descendente Q puede ser el siguiente:
[0081] Para cada uno de los dos canales de mezcla descendente el coeficiente de cambio de escala se calcula de la siguiente manera:
9 f{pc> u^> Pavg) Cu Pavg ' (9c u^)
donde pav9 es el valor promedio/media de todos los coeficientes de correlaciónp[m, n]para una serie de combinaciones de canalesKn•Kn [m, n]y donde cc, cu dependen del número de canalKn,que puede ser de la siguiente manera:
•Knpuede ser el número de canales que se mezclan de manera descendente al canal de mezcla descendente actualmente consideradok e[1,2] (el número de filas en la matriz de mezcla descendente Q en la columnakque contiene valores no iguales a cero). Este número es invariante en el tiempo debido a que la matriz de mezcla descendente Q está predefinida para una configuración de canal de entrada y no cambia en la longitud de una señal de entrada de audio.
Por ejemplo, cuando se considera una señal de entrada de 5.1 se aplica lo siguiente:
o los canales 1, 3, 4 se mezclan de manera descendente al canal de mezcla descendente 1 (véase la matriz Q más arriba),
oKn= 3 en cada trama (3 canales)
•Knpuede ser el número de canales activos que se mezclan de manera descendente en el canal de mezcla descendente actualmente consideradok e[1 ,2 ] (número de canales de entrada donde hay actividad en la trama de audio actual y donde la fila correspondiente de la matriz de mezcla descendente Q en la columnakcontiene un valor no igual a cero ^ número de canales en la intersección de canales activos y elementos no iguales en la columnakde Q). Este número puede ser variable en el tiempo en la longitud de una señal de entrada de audio, porque incluso si Q permanece igual, la actividad de la señal puede variar con el tiempo.
Por ejemplo, cuando se considera una señal de entrada de 5.1 se aplica lo siguiente:
o los canales 1, 3, 4 se mezclan de manera descendente al canal de mezcla descendente 1 (véase la matriz Q más arriba),
o En la trama n:
■ los canales activos son los canales 1, 2, 4,
■Knes el número de canales en la intersección {1, 4},
■Kin(n) = 2
o En la trama n 1:
■ los canales activos son los canales 1, 2, 3, 4
■Knes el número de canales en la intersección {1, 3, 4},
■Kn(n+1) = 3.
[0082] Un canal de audio (en la trama predefinida) puede considerarse activo en caso de que tenga una amplitud o una energía dentro de la trama predefinida que sea superior a un valor de umbral predeterminado, por ejemplo, según las realizaciones, una actividad en un canal de audio (en una trama predefinida) se puede definir de la siguiente manera:
• la suma o el valor máximo de las amplitudes absolutas de la señal (en el dominio del tiempo, dominio QMF, etc.) en la trama es mayor que cero, o
• la suma o el valor máximo de la energía de la señal (valor absoluto cuadrado de las amplitudes en el dominio del tiempo o dominio QMF) en la trama es mayor que cero.
[0083] En lugar de cero también puede usarse otro umbral (relativo a la energía o amplitud máxima) mayor que cero, por ejemplo, un umbral de 0,01.
[0084] Según las realizaciones, se proporciona un factor de ganancia para cada oído que depende del número de canales activos (que varían en el tiempo) o el número fijo de canales incluidos (matriz de mezcla descendente no igual a cero)Knen el canal de mezcla descendente. Se supone que el factor aumenta linealmente entre el caso totalmente no correlacionado y el caso totalmente correlacionado. Totalmente no correlacionado significa sin dependencias entre canales (el valor de correlación es cero) y totalmente correlacionado significa que las señales son versiones ponderadas de cada uno (con diferencia de fase de desplazamiento, el valor de correlación es uno).
[0085] Como se mencionó anteriormente, la ganancia o factor de cambio de escala g puede suavizarse en las tramas de audio por medio del filtro de paso bajo 528. El filtro de paso bajo 528 puede tener una constante de tiempo de ts que da lugar a un factor de ganancia suavizado degs(t)para un tamaño de tramakde la siguiente manera:
s^,new 1 s^,old
donde
ts= constante de tiempo del filtro de paso bajo en [s]
ti= trama de audio en la tramati
gs= factor de ganancia suavizado
k= tamaño de la trama, y
fs= frecuencia de muestreo en [Hz]
[0086] El tamaño de la tramakpuede ser el tamaño de una trama de audio en muestras en el dominio del tiempo, por ejemplo, 2.048 muestras.
[0087] La señal reverberada del canal izquierdo de la trama de audiox(t)se somete a un cambio de escala entonces por medio del factorgs,ieft(ti),y la señal reverberada del canal derecho se somete a un cambio de escala por medio del factorgs,right(t).El factor de cambio de escala se calcula una vez conKncomo el número de canales (activos no cero o número total de canales) que están presentes en el canal izquierdo de la mezcla descendente estéreo que se suministra al reverberador resultante en el factor de cambio de escala g<s,left>(t<¡>). Entonces el factor de cambio de escala se calcula una vez más conKncomo el número de canales (activos no cero o número total de canales) que están presentes en el canal izquierdo de la mezcla descendente estéreo que se suministra al reverberador resultante en el factor de cambio de escala g<s,right>(t<i>). El reverberador devuelve una versión reverberada estéreo de la trama de audio. El canal izquierdo de la versión reverberada (o el canal izquierdo de la entrada del reverberador) se somete a un cambio de escala con g<s,left>(t<i>) y el canal derecho de la versión reverberada (o el canal derecho de la entrada de la reverberador) se somete a un cambio de escala con g<s,right>(t<i>).
[0088] La reverberación tardía (sintética) artificial con cambio de escala se aplica al sumador 510 que se añade a la señal 506 que ha sido tratada con el sonido directo y las reflexiones tempranas.
[0089] Como se mencionó anteriormente, el enfoque de la invención, según las realizaciones puede usarse en un procesador binaural para el tratamiento binaural de señales de audio. A continuación se describirá una realización del tratamiento binaural de señales de audio. El tratamiento binaural puede llevarse a cabo como un proceso de decodificador que convierte la señal decodificada en una señal de mezcla descendente binaural que proporciona una experiencia de sonido envolvente cuando se escucha con auriculares.
[0090] La Fig. 8 muestra una representación esquemática de un renderizador binaural 800 para el tratamiento binaural de señales de audio según una realización de la presente invención. La Fig. 8 también proporciona una visión general del tratamiento del dominio QMF en el renderizador binaural.
[0091] En una entrada 802 el renderizador binaural 800 recibe la señal de audio que se tratará, por ejemplo, una señal de entrada que incluye N canales y 64 bandas QMF. Además, el renderizador binaural 800 recibe una serie de parámetros de entrada para controlar el tratamiento de la señal de audio. Los parámetros de entrada incluyen la respuesta al impulso del ambiente binaural (BRIR) 804 para los 2xN canales y 64 bandas QMF, una indicación K<max>806 de la banda máxima que se usa para la convolución de la señal de entrada de audio con la parte de reflexión temprana de BRIR 804, y los parámetros del reverberador 808 y 810 mencionados anteriormente (RT60 y la energía de reverberación). El renderizador binaural 800 comprende un procesador de convolución rápida 812 para tratar la señal de audio de entrada 802 con la parte temprana de las BRIR recibidas 804. El procesador 812 genera en una salida la señal temprana tratada 814 que incluye dos canales y K<max>bandas QMF. El renderizador binaural 800 comprende, además de la rama de tratamiento temprano que tiene el procesador de convolución rápida 812, también una rama de reverberación que incluye dos reverberadores 816a y 816b en los que cada uno recibe como parámetro de entrada la información RT60 808 y la información de energía de reverberación 810. La rama de reverberación incluye además un procesador de mezcla descendente estéreo 818 y un procesador de análisis de correlación 820 así como también la recepción de la señal de audio de entrada 802. Además, se proporcionan dos etapas de ganancia 821a y 821b entre el procesador de mezcla descendente estéreo 818 y los respectivos reverberadores 816a y 816b para controlar la ganancia de una mezcla descendente de la señal 822 proporcionada por el procesador de mezcla descendente estéreo 818. El procesador de mezcla descendente estéreo 818 proporciona basándose en la señal de entrada 802 la señal submezclada 822 que tiene dos bandas y 64 bandas QMF. La ganancia de las etapas de ganancia de 821a y 821b está controlada por señales de control respectivas 824a y 824b proporcionadas por el procesador de análisis de correlación 820. La señal submezclada controlada por ganancia se introduce en los reverberadores respectivos 816a y 816b para generar señales reverberadas respectivas 826a, 826b. La señal tratada temprana 814 y las señales reverberadas 826a, 826b son recibidas por un mezclador 828 que combina las señales recibidas en la señal de audio de salida 830 que tiene dos canales y 64 bandas QMF. Además, el procesador de convolución rápida 812 y los reverberadores 816a y 816b reciben un parámetro de entrada adicional 832 que indica la transición en la respuesta al impulso del ambiente 804 de la parte temprana a la reverberación tardía determinada como se expuso anteriormente.
[0092] El módulo renderizador binaural 800 (por ejemplo, el renderizador binaural 236 de la Fig. 2 o la Fig. 4) tiene como entrada 802 el tren de datos decodificados. La señal es tratada por un banco de filtros de análisis QMF como se indica en la norma ISO/IEC 14496-3:2009, subcláusula 4.B.18.2 con las modificaciones indicadas en la norma ISO/IEC 14496-3:2009, subcláusula 8.6.4.2. El módulo renderizador 800 también puede tratar datos de entrada en el dominio QMF; en este caso el banco de filtros de análisis puede ser omitido. Las respuestas al impulso del ambiente binaurales (BRIR) 804 se renderizan como filtros complejos en el dominio QMF. La conversión de las respuestas al impulso del ambiente binaurales en el dominio del tiempo a la representación del filtro QMF complejo se describe en la norma ISO/IEC FDIS 23003-1:2006, Anexo B. Las<b>R<i>R 804 se limitan a un cierto número de intervalos de tiempo en el dominio QMF complejo, que contienen sólo la parte de reflexión temprana 301, 302 (véase la Fig. 5) y la reverberación difusa tardía 304 no está incluida. El punto de transición 832 de las reflexiones tempranas de reverberación tardía se determina como se ha descrito anteriormente, por ejemplo, por un análisis de la BRiR 804 en un paso de pretratamiento del tratamiento binaural. Las señales de audio en el dominio QMF 802 y las BRIR en el dominio QMF 804 son entonces tratadas por una convolución rápida por bandas 812 para realizar el tratamiento binaural. Un reverberador en el dominio<q>M<f>816a, 816b se usa para generar una reverberación tardía de 2 canales en el dominio QMF 826a, 826b. El módulo de reverberación 816a, 816b usa un conjunto de tiempos de reverberación dependientes de la frecuencia 808 y valores de energía 810 para adaptar las características de la reverberación. La forma de onda de la reverberación se basa en una mezcla descendente estéreo 818 de la señal de entrada de audio 802 y se somete a un cambio de escala de forma adaptativa 821a, 821b en amplitud dependiendo de un análisis de correlación 820 de la señal de audio de canales múltiples 802. El resultado convolucional en el dominio QMF de 2 canales 814 y la reverberación en el dominio QMF de 2 canales 816a, 816b se combinan en 828 y, finalmente, dos bancos de filtros de síntesis QMF calculan las señales de salida en el dominio del tiempo binaural 830 como se indica en la norma ISO/IEC 14496-3:2009, subcláusula 4.6.18.4.2. El renderizador también puede producir datos de salida en el dominio QMF; por tanto, el banco de filtros de síntesis se omite.
DEFINICIONES
[0093] Las señales de audio 802 que se introducen en el módulo renderizador binaural 800 se denominan en lo sucesivoseñales de entrada.Las señales de audio 830 que son el resultado del tratamiento binaural se denominanseñales de salida.Las señales de entrada 802 del módulo renderizador binaural 800 son señales de salida de audio del decodificador principal (véanse, por ejemplo, las señales 228 en la Fig. 2). Se usan las siguientes definiciones de variables:
(continuación)
TRATAMIENTO
[0094] A continuación se describe el tratamiento de la señal de entrada. El módulo renderizador binaural opera en tramas contiguas no superpuestas de longitudL= 2.048 muestras en dominio del tiempo de las señales de audio de entrada y produce una trama de muestrasLpor trama de entrada tratada de longitud L.
(1) Inicialización y pretratamiento
[0095] La inicialización del bloque de tratamiento binaural se realiza antes de que se lleve a cabo el tratamiento de las muestras de audio suministradas por el decodificador principal (véase, por ejemplo, el decodificador de 200 en la Fig. 2). La inicialización se compone de varias etapas de tratamiento.
(a) Lectura de valores de análisis
[0096] El módulo reverberador 816a, 816b tiene un conjunto dependiente de la frecuencia de tiempos de reverberación 808 y valores de energía 810 como parámetros de entrada. Estos valores se leen a partir de una interfaz en la inicialización del módulo de tratamiento binaural 800. Además se lee el tiempo de transición 832 de las reflexiones tempranas a reverberación tardía en muestras en el dominio del tiempo. Los valores se pueden almacenar en un archivo binario escrito con 32 bits por muestra, valores flotantes, ordenamiento de tipo little-endian. Los valores de lectura que se necesitan para el tratamiento se indican en la siguiente tabla:
(b) Lectura y pretratamiento de BRIR
[0097] Las respuestas al impulso del ambiente binaural 804 se leen a partir de dos archivos dedicados que almacenan individualmente las BRIR del oído izquierdo y derecho. Las muestras en el dominio del tiempo de las<b>R<i>R se almacenan en archivos de onda enteros con una resolución de 24 bits por muestra y 32 canales. El orden de BRIR en el archivo es como se indica en la siguiente tabla:
[0098] Si no hay BRIR medida en una de las posiciones de los altavoces, el canal correspondiente en el archivo de onda contiene valores cero. Los canales LFE no se usan para el tratamiento binaural.
[0099] Como una etapa de pretratamiento, el conjunto dado de respuestas al impulso del ambiente binaurales (BRIR) se transforma de filtros en el dominio del tiempo a filtros en el dominio QMF de valor complejo. La aplicación de los filtros en el dominio del tiempo dados en el dominio QMF de valor complejo se realiza según la norma ISO/IEC FDIS 23003-1:2006, Anexo B. Los coeficientes del filtro prototipo para la conversión de filtro se usan según ISO/IEC
FDIS 23003 -1:2006, Anexo B, Tabla B.1. La representación del dominio del tiempo llChh<v • • • h>n v N mcon
1 <v < Ltrse trata para obtener un filtro en el dominio QMF con valor complejo l ln,k n,kch h n’k • h nrricon
1 <n < Ltrans,n ■
(2) Tratamiento de la señal de audio
[0100] El bloque de tratamiento de audio del módulo renderizador binaural 800 obtiene muestras de audio en el dominio del tiempo 802 para N<in>canales de entrada desde el decodificador principal y genera una señal de salida binaural 830 que consiste en N<out>= 2 canales.
[0101] El tratamiento toma como entrada
• los datos de audio decodificados 802 desde el decodificador principal,
• la representación del dominio QMF del complejo de la parte de reflexión temprana de la BRIR fijada 804, y
• el parámetro dependiente de la frecuencia fijo 808, 810, 832 que es usado por el reverberador en el dominio QMF 816a, 816b para generar la reverberación tardía 826a, 826b.
(a) Análisis de QMF de la señal de audio
[0102] Como la primera etapa de tratamiento, el módulo renderizador binaural transformaL= 2.048 muestras en el dominio del tiempo de la señal de entrada del dominio del tiempo de Nin canales (proveniente del decodificador principal) en una representación de la señal en el dominio QMF de N<in>canales 802 de dimensión L<n>= 32 intervalos de tiempo de QMF (índice de intervalo n) yK= 64 bandas de frecuencia (índice d e bandak).
[0103] Se realiza un análisis de QMF como se indica en la norma ISO/IEC 14496-3:2009, 4.B.18.2 subcláusula con las modificaciones establecidas en la norma ISO/IEC 14496-3:2009, subsección 8.6.4.2. en una trama de la señal en el dominio del tiempo para obtener una trama de la señal en el dominio QMF con1 < V <Ly 1 <" < L n.
(b) Convolución rápida del dominio de señal de audio QMF y las BRIR del dominio QMF
[0104] A continuación, se lleva a cabo una convolución rápida de banda 812 para tratar la señal de audio en el dominio QMF 802 y las BRIR en el dominio QMF 804. Puede realizarse un análisis f Ft para cada banda de frecuencia QMFkpara cada canal de la señal de entrada 802 y cada BRIR 804.
[0105] Debido a los valores complejos en el dominio QMF se realiza un análisis FFT en la parte real de la representación de la señal en el dominio QMF y un análisis FFT en las partes imaginarias de la representación de la señal en el dominio QMF. A continuación, se combinan los resultados para formar la señal en el dominio pseudo-FFT con valor complejo por bandas final
y las BRIR con valor complejo por bandas
p
[0106] La longitud de la transformada FFT se determina según la longitud de los filtros de BRIR en el dominio QMF con valor complejo L<trans,n>y la longitud de la trama en intervalos de tiempo en el dominio QMF L<n>de manera que
[0107] Las señales en el dominio pseudo-FFT con valor complejo se multiplican por los filtros de BRIR en el dominio pseudo-FFT con valor para formar los resultados de convolución rápida. Se usa un vector mconv para indicar qué canal de la señal de entrada corresponde a cada par BRIR en el conjunto de datos BRIR.
[0108] Esta multiplicación se realiza por bandas para todas laskbandas de frecuencia QMF con
1 <k< K max . La banda máxima K<max>se determina por la banda QMF que representa una frecuencia de 18 kHz o la frecuencia de señal máxima que está presente en la señal de audio del decodificador principal
/max = m Ín ( /max,decoder >18 k H z )
[0109] Los resultados de la multiplicación de cada canal de entrada de audio con cada par BRIR se suman en
cada banda de frecuencia QMFkcon 1 < k < Kmax para producir una señal en el dominio pseudo-FFT K<max>de 2
[0110] A continuación, se lleva a cabo una síntesis de FFT por bandas para transformar el resultado de convolución nuevamente al dominio QMF que produce una señal en el dominio QMF intermedia de bandaK<max>de 2 v n,k P/yn,k'•n,k
^ch,conv
canales conLfttintervalos de tiempo L zch,<,>1<1,conv’ ^ch,2,conv>con<1 < n < L f>
y<1 < k < K „>
[0111] Para cada trama de señal de entrada en el dominio QMFL= 32 intervalos de tiempo se devuelve una trama de señal de resultado de convolución conL= 32 intervalos de tiempo. Los L<ftt>- 32 intervalos de tiempo restantes se almacenan y se lleva a cabo un tratamiento de superposición-suma en la o las tramas siguientes.
(c) Generación de reverberación tardía
[0112] Como segunda señal intermedia 826a, 826B se genera una señal de reverberación denominadaZ;lnk<n,k ^n ,k>
ch,
,rev = I \2 zch,1,rev’ Z<_>
ch,2,rev
por un módulo reverberador en el dominio de la frecuencia 816a, 816b. El reverberador en el dominio de la frecuencia 816a, 816b toma como entrada
• una mezcla descendente estéreo en el dominio QMF 822 de una trama de la señal de entrada,
• un conjunto de parámetros que contiene tiempos de reverberación dependientes de la frecuencia 808 y valores de energía 810.
[0113] El reverberador en el dominio de la frecuencia 816a, 816b devuelve una cola de reverberación tardía en el dominio QMF de 2 canales.
[0114] El número de banda usado máximo del conjunto de parámetros dependientes de la frecuencia se calcula en función de la frecuencia máxima.
[0115] En primer lugar se lleva a cabo una mezcla descendente estéreo de un dominio QMF 818 de unan k
trama de la señal de entrada^ chpara formar la entrada del reverberador por una suma ponderada de los canales de señal de entrada. Las ganancias de ponderación están contenidas en la matriz de mezcla descendente M<dmx>. Tienen valor real y no son negativas y la matriz de mezcla descendente tiene como dimensión Nout x Mn. Contiene un valor distinto a cero, donde un canal de la señal de entrada se hace corresponder con uno de los dos canales de salida.
[0116] Los canales que representan las posiciones de los altavoces en el hemisferio izquierdo se hacen corresponder con el canal de salida izquierdo y los canales que representan los altavoces situados en el hemisferio derecho se hacen corresponder con el canal de salida derecho. Las señales de estos canales se ponderan con un coeficiente de 1. Los canales que representan los altavoces situados en el plano medio se hacen corresponder con los dos canales de salida de la señal binaural. Las señales de entrada de estos canales se ponderan con un coeficiente
1
a =0.7071
V 2
[0117] Además, se lleva a cabo una etapa de ecualización de energía en la mezcla descendente. Se adapta la energía por bandas de un canal de mezcla descendente para que sea igual a la suma de la energía por bandas de los canales de señal de entrada que están contenidos en este canal de mezcla descendente. Esta ecualización de energía se lleva a cabo mediante una multiplicación por bandas con un coeficiente de valor real
C-'k
[0118] El factor eq,k está limitado a un intervalo de [0,5, 2]. La constante numérica s se introduce para evitarf
una división por cero. La mezcla descendente también se limita en banda a la frecuencia^ max ; los valores en todas las bandas de frecuencia más altas se ajustan a cero.
[0119] La Fig. 9 representa esquemáticamente el tratamiento en el reverberador en el dominio de la frecuencia 816a, 816b del renderizador binaural 800.
[0120] En el reverberador en el dominio de la frecuencia, se calcula una mezcla descendente mono de la entrada estéreo usando un mezclador de entrada 900. Esto se hace aplicando incoherentemente un cambio de fase de 90° en el segundo canal de entrada.
[0121] Esta señal mono se suministra entonces a un bucle de retardo de realimentación 902 en cada banda de frecuencia fe, que crea una secuencia de debilitamiento de los impulsos. Se sigue de elementos de decorrelación FIR paralelos que distribuyen la energía de la señal de una manera debilitadora en los intervalos entre los impulsos y crean incoherencia entre los canales de salida. Se aplica una densidad de filtro de debilitamiento para crear el debilitamiento de la energía. Las operaciones de fase de filtro de reducción se limitan a cuatro opciones para implementar un elemento de correlación escaso y sin multiplicadores.
[0122] Tras el cálculo de la reverberación se incluye una corrección de coherencia entre canales (ICC) 904 en el módulo reverberador para cada banda de frecuencia<q>M<f>. En la etapa de corrección ICC se usan ganancias directas dependientes de la frecuencia gdirecta y ganancias de mezcla cruzada gcruzada para adaptar la ICC.
[0123] La cantidad de energía y los tiempos de reverberación para las diferentes bandas de frecuencia están contenidos en el conjunto de parámetros de entrada. Los valores se dan en una serie de puntos de frecuencia que se hacen corresponder internamente con lasK =64 bandas de frecuencia QMF.
[0124] Se usan dos instancias del reverberador en el dominio de la frecuencia para calcular la señal intermedia *•n,k n,k^n,k~\ *n,k
finalJch,rev ■^ch, 1,rev ’ 'Zch,2,rev JLa señal<-ch,1,rev>es el primer canal de salida de la primera instancia deln k
reverberador, y<-ch,2,rev>es el segundo canal de salida de la segunda instancia del reverberador. Se combinan con la trama de señal de reverberación final que tiene la dimensión de 2 canales, 64 bandas y 32 intervalos de tiempo.
[0125] La mezcla descendente estéreo 822 se somete a un cambio de escala de dos veces 821a,b según una medida de correlación 820 de la trama de la señal de entrada para asegurar el cambio de escala correcto de la salida’ J v DMX,actdel reverberador. El factor de cambio de escala se define como un valor en el intervalo de<V N>DMX,actNlinealmente en función de un coeficiente de correlación Ccorr entre 0 y 1 con
y
2,k *
1 Z Z Achí • E h,B
ck n
cAo,rBr=
K -1
^ nAch,A Ach,B
donde<ych,A>significa la desviación típica en un intervalo de tiemponde canalA,el operador {*} denota el conjugado complejo eyes la versión de media cero de la señal en el dominio QMFyen la trama de la señal real.
[0126] C<corr>se calcula dos veces: una vez para la pluralidad de canalesA,Bque están activos en la trama de la señal realFy se incluyen en el canal izquierdo de la mezcla descendente estéreo y una vez para la pluralidad de canalesA, Bque están activos en la trama de la señal realFy que se incluyen en el canal derecho de la mezcla descendente estéreo. W<DMx,act>es el número de canales de entrada que reducen la mezcla a un canal de mezcla descendenteA(número de elemento de matriz en la A-ésima fila de la matriz de mezcla descendente M<dmx>que son diferentes a cero) y que están activos en la trama actual.
[0127] Entonces, los factores de cambio de escala son
[0128] Los factores de cambio de escala se suavizan mediante tramas de señal de audio mediante un filtro de paso bajo de primer orden que da lugar a factores de cambio de escala suavizados<Cscale I Cscale,1 5 Cscale,2>
[0129] Los factores de cambio de escala se inicializan en la primera trama de datos de entrada de audio por medio de un análisis de correlación en el dominio del tiempo con las mismas medias.
[0130] La entrada de la primera instancia del reverberador se somete a un cambio de escala con el factor de cambio de escala<■'scale,!>y la entrada de la segunda instancia del reverberador se somete a un cambio de escala con el factor de cambio de escala L'scale,2
(d) Combinación de resultados convolucionales y reverberación tardía
vn,kP*n,k
c^h,conv L zchv ’^n
ch.
,2,c
[0131] A continuación, el resultado convolucional 814, ,1,con zk
y la salida del^n,k_ r/yn,k /yn,k \
Z ch,rev _ Zch,1,rev, Zch,2,rev J
reverberador 826a, 826B, ’ L ’ ’ J , para una trama de entrada de audio en el dominio QMF se combinan mediante un proceso de mezcla 828 que suma por bandas las dos señales. Téngase en cuenta que las "n,k
bandas superiores mayores que K<max>son cero en<",ch,conv>dado que la convolución sólo se lleva a cabo en las bandas hasta K<max>.
[0132] La salida de la reverberación tardía se retrasa en una cantidad de intervalos de tiempod= ((L<trans>- 20 ■64 1) / 64 0,5) 1 en el proceso de mezcla.
[0133] El retardodtiene en cuenta el tiempo de transición desde las reflexiones tempranas a las reflexiones tardías en las BRIR y un retardo inicial del reverberador de 20 intervalos de tiempo QMF, así como también un retardo de análisis de 0,5 intervalos de tiempo QMF para el análisis QMF de las BRIR con el fin de garantizar la inserción deZ^nh,k
la reverberación tardía en un intervalo de tiempo razonable. La señal combinada ch en un intervalo de tiemponse vn,kvn-d,k<z>
calcula por ch,conv<+ z>ch,rev
(e) Síntesis QMF de señal en el dominio QMF binaural
*• n,k [0134] Una trama de 2 canales de 32 intervalos de tiempo de la señal de salida en el dominio QMF ch se transforma en una trama de señal en el dominio del tiempo de 2 canales con longitudLpor la síntesis QMF según ISO/IEC 14496-3:2009, subcláusula 4.6.18.4.2. para producir la señal de salida en el dominio del tiempo finalL 830,<Z c'h = E I m l Z Í 2 ]>De acuerdo con el enfoque de la invención, la reverberación tardía sintética o artificial se somete a un cambio de escala teniendo en cuenta las características de la señal de entrada, mejorando así la calidad de la señal de salida mientras se aprovecha de la reducción de la complejidad computacional obtenida por el tratamiento separado. Además, como se puede observar en la descripción anterior, no se requieren modelos adicionales de audición o sonoridad de reverberación objeto.
[0135] Cabe observar que la invención no se limita a la realización descrita anteriormente. Por ejemplo, aunque la realización anterior se ha descrito en combinación con el dominio QMF, se indica que también pueden usarse otros dominios de tiempo y frecuencia, por ejemplo, el dominio STFT. Además, el factor de cambio de escala puede calcularse de una manera dependiente de la frecuencia de modo que la correlación no se calcule en todo el número de bandas de frecuencia, es decir /V[1, N], sino que se calcule en un número de S subconjuntos definidos de la siguiente manera:
i 1V [1 ,N 1] , i 2V [N1 1, N 2\ , i sV [W5_1N]
[0136] Además, la suavización puede aplicarse en todas las bandas de frecuencias o pueden combinarse bandas según una regla específica, por ejemplo, según la resolución de la frecuencia de la audición. La suavización puede adaptarse a diferentes constantes de tiempo, por ejemplo, dependientes del tamaño de la trama o de la preferencia del oyente.
[0137] El enfoque de la invención también puede aplicarse para diferentes tamaños de trama, incluso es posible un tamaño de trama de un solo intervalo de tiempo en el dominio del tiempo-frecuencia.
[0138] Según las realizaciones, pueden usarse diferentes matrices de mezcla descendente para la mezcla descendente, por ejemplo, matrices de mezcla descendente simétricas o matrices asimétricas.
[0139] La medida de correlación puede derivarse de los parámetros que se transmiten en el tren de bits de audio, por ejemplo, de la coherencia entre canales en MPEG envolvente o SAOC. También, según las realizaciones, es posible excluir algunos valores de la matriz del cálculo del valor medio, por ejemplo valores calculados erróneamente o valores de la diagonal principal, los valores de autocorrelación, si es necesario.
[0140] El proceso puede realizarse en el codificador en vez de usarlo en el renderizador binaural en el lado del decodificador, por ejemplo, cuando se aplica un perfil binaural de baja complejidad. Esto da lugar a que algunas representaciones de los factores de cambio de escala, por ejemplo los propios factores de cambio de escala, con una medida de correlación entre 0 y 1 y similares, y estos parámetros, se transmitan en el tren de bits del codificador al decodificador para una matriz en sentido descendente fija.
[0141] Además, aunque la realización descrita anteriormente se describe por la aplicación de la ganancia después del reverberador 514, se indica que según ejemplos que no están dentro del alcance de las reivindicaciones, la ganancia también se puede aplicar antes del reverberador 514 o dentro del reverberador, por ejemplo mediante la modificación de las ganancias dentro del reverberador 514. Esto es ventajoso ya que puede requerirse un menor número de cálculos.
[0142] Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de un procedimiento o a una función de una etapa de un procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa de un procedimiento también representan una descripción de un bloque o elemento o función correspondiente de un aparato correspondiente. Algunas o todas las etapas del procedimiento pueden ejecutarse por (o mediante) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas del procedimiento más importantes pueden ser realizadas por un aparato de este tipo.
[0143] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede llevarse a cabo usando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disquete, DVD, disco Blu-Ray, CD, ROM, PROM, EPROM y EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas, que cooperan (o son capaces de cooperar) con un sistema informático programable de manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0144] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de manera que se lleve a cabo uno de los procedimientos descritos en esta invención.
[0145] En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, estando el código de programa operativo para llevar a cabo uno de los procedimientos cuando el producto del programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un soporte legible en una máquina.
[0146] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible en una máquina.
[0147] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
[0148] Una realización adicional del procedimiento de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio de grabado son normalmente tangibles y/o no transitorios.
[0149] Una realización adicional comprende un medio de tratamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurados o programados para realizar uno de los procedimientos descritos en esta invención.
[0150] Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0151] En algunas realizaciones, puede usarse un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en campo) para llevar a cabo todas o algunas de las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables en campo puede cooperar con un microprocesador para llevar a cabo uno de los procedimientos descritos en esta invención. En general, los procedimientos son realizados ventajosamente por cualquier aparato de hardware.
[0152] Las realizaciones anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se comprende que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente serán evidentes para los expertos en la materia. Por lo tanto, se pretende que sólo esté limitada por el alcance de las reivindicaciones de la patente en tramitación y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en esta invención.
Bibliografía
[0153]
[1] M. R. Schroeder, “Digital Simulation of Sound T ransmission in Reverberant Spaces”, The Journal of the Acoustical Society of America, VoS. 47, pp. 424-431 (1970) and enhanced in JA. Moorer, “About This Reverberation Business”, Computer Music Journal, Vol. 3, no. 2, pp. 13-28, MIT Press (1979).
[2] Uhle, Christian; Paulus, Jouni; Herre, Jürgen: “Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness” Proceedings, 17th International Conference on Digital Signal Processing (DSP), July 6 - 8, 2011, Corfu, Greece.
[3] Czyzewski, Andrzej: “A Method of Artificial Reverberation Quality Testing” J. Audio Eng. Soc., Vol. 38, No 3, 1990.

Claims (17)

  1. REIVINDICACIONES 1. Un procedimiento para el tratamiento de una señal de audio (504, 802) según una respuesta al impulso del ambiente (300), comprendiendo el procedimiento: la combinación de una señal de audio tratada (506) y una señal reverberada escalada para formar dicha señal de salida, la aplicación de la señal de audio (504, 802) como una señal de entrada a un procesador de parte anterior (502, 812) y a un reverberador (514, 816a, 816b); el tratamiento, por el procesador de parte anterior (502, 812), de la señal de audio (504, 802) con una parte anterior (301, 302) de la respuesta al impulso del ambiente (300) para obtener la señal de audio tratada (506), el tratamiento, por el reverberador (514, 816a, 816b), de la señal de audio (504, 802) con una reverberación tardía (304) de la respuesta al impulso del ambiente (300) para obtener una señal reverberada, y el escalamiento de la señal reverberada para obtener la señal reverberada escalada, siendo el escalamiento dependiente de la señal de audio (504, 802), donde el escalamiento de la señal reverberada comprende la aplicación a la señal reverberada de un factor de ganancia, donde el factor de ganancia se determina del siguiente modo: 9 = cu p - (cc - cu) donde: p = medida de correlación predefinida o calculada para la señal de audio (504, 802), cu, Cc= factores indicativos de una condición de la pluralidad de canales de entrada de la señal de audio (504, 802), conCurefiriéndose a canales totalmente no correlacionados, y Ccrefiriéndose a canales totalmente correlacionados, dondeCuyCcse determinan del modo siguiente: 10-login ( tf ín) ___ cu<=>10 20<=>JK ~ 20-log10(K ín) cc = 1020<=>Kin donde: Kin= número de canales de entrada activos de la señal de audio.
  2. 2. El procedimiento según la reivindicación 1, donde el factor de ganancia se determina sobre una pluralidad de tramas de audio y es filtrado en paso bajo sobre dicha pluralidad de tramas de audio.
  3. 3. El procedimiento según la reivindicación 2, donde el factor de ganancia es filtrado en paso bajo del modo siguiente:
    ^s,new1^s,old donde ts= constante de tiempo del filtro de paso bajo ti= trama de audio en la tramat, gs= factor de ganancia suavizado k= tamaño de trama, y fs= frecuencia de muestreo.
  4. 4. El procedimiento según una de las reivindicaciones 1 a 3, donde la generación de la señal reverberada escalada comprende un análisis de correlación de la señal de audio (504, 802).
  5. 5. El procedimiento según la reivindicación 4, donde el análisis de correlación de la señal de audio (504, 802) comprende la determinación para una trama de audio de la señal de audio (504, 802) de una medida de correlación combinada, y donde la medida de correlación combinada se calcula mediante la combinación de coeficientes de correlación para una pluralidad de combinaciones de canales de una trama de audio, comprendiendo cada trama de audio uno o más intervalos de tiempo.
  6. 6. El procedimiento según la reivindicación 5, donde la combinación de los coeficientes de correlación comprende el promediado de una pluralidad de coeficientes de correlación de la trama de audio.
  7. 7. El procedimiento según la reivindicación 5 o 6, donde la determinación de la medida de correlación combinada comprende: (i) el cálculo de un valor medio global para cada canal de la una trama de audio, (ii) el cálculo de una trama de audio de media cero restando los valores medios de los canales correspondientes, (iii) el cálculo para una pluralidad de combinación de canales del coeficiente de correlación, y (iv) el cálculo de la medida de correlación combinada como la media de una pluralidad de coeficientes de correlación.
  8. 8. El procedimiento según una de las reivindicaciones 5 a 7, donde el coeficiente de correlación para una combinación de canales se calcula del modo siguiente:
    donde p[m, n] = coeficiente de correlación, o(X<m>[j]) = desviación típica en un intervalo de tiempojdel canal m, c(x<n>[j]) = desviación típica en un intervalo de tiempojdel canal n, x<m>, x<n>= variables de media cero, iv [1, N] = bandas de frecuencia, jv [1, M] = intervalos de tiempo, m,nv[1 ,K] = canales, * = conjugado complejo.
  9. 9. El procedimiento según una de las reivindicaciones 1 a 8, que comprende el retardo de la señal reverberada con cambio de escala para hacer coincidir su inicio en el punto de transición desde las reflexiones tempranas con la reverberación tardía (304) en la respuesta al impulso del ambiente (300).
  10. 10. Un producto informático no tangible que incluye un medio legible por ordenador que almacena instrucciones para hacer que un ordenador realice el procedimiento según una de las reivindicaciones 1 a 9 cuando es ejecutado por el ordenador.
  11. 11. Una unidad de tratamiento de señales, para tratar de acuerdo con una respuesta al impulso del ambiente (300) una señal de audio (504, 802) en una señal de salida, comprendiendo la unidad de tratamiento de señal: una entrada configurada para recibir una señal de audio (504, 802), una salida para la combinación de una señal de audio tratada (506) y una señal reverberada escalada en una señal de audio de salida; y un procesador de parte temprana (502, 812) para el tratamiento de la señal de audio (504, 802) según una parte temprana (301, 302) de una respuesta al impulso del ambiente (300) para obtener la señal de audio tratada (506), y un reverberador (514, 816a, 816b), que está configurado para procesar la señal de audio (504, 802) recibida en la entrada de acuerdo con una reverberación tardía de la respuesta al impulso del ambiente (300) para obtener una señal reverberada, y para escalar la señal reverberada para obtener la señal reverberada escalada, siendo el escalamiento dependiente de la señal de audio recibida (504, 802) recibida en la entrada, donde la señal reverberada escalada se genera mediante la aplicación de un factor de ganancia a la señal reverberada, y donde el factor de ganancia se determina del siguiente modo: 9cu + P '<C^c>cu<)> donde p = medida de correlación predefinida o calculada para la señal de audio (504, 802), cu, Cc= factores indicativos de una condición de la pluralidad de canales de entrada de la señal de audio (504, 802), conCurefiriéndose a canales totalmente no correlacionados, yCcrefiriéndose a canales totalmente correlacionados, dondeCuyCcse determinan del modo siguiente: 104og10( tfín) cu =10 20
    20-log10(K ln ) Cc =10 20
    donde Kin= número de canales de entrada activos de la señal de audio.
  12. 12. La unidad de tratamiento de señales según la reivindicación 11 , que comprende: una fase de ganancia (526) acoplada a una salida del reverberador y controlada por el factor de ganancia.
  13. 13. La unidad de tratamiento de señales según la reivindicación 12, que comprende un analizador de correlación (524) que genera el factor de ganancia dependiendo de la señal de audio (504, 802).
  14. 14. La unidad de tratamiento de señales según la reivindicación 12 o 13, que comprende además al menos uno de entre: un filtro de paso bajo (528) acoplado a la etapa de ganancia (526), y un elemento de retardo (530) acoplado entre la etapa de ganancia (526) y un sumador (530), con el sumador (530) acoplado además al procesador de parte temprana (502, 812) y a la salida.
  15. 15. Un renderizador binaural, que comprende una unidad de tratamiento de señales según una de las reivindicaciones 11 a 14.
  16. 16. Un codificador de audio para codificar señales de audio, que comprende: una unidad de tratamiento de señales según una de las reivindicaciones 11 a 14 o un renderizador binaural según la reivindicación 15 para el tratamiento de las señales de audio antes de la codificación.
  17. 17. Un decodificador de audio que comprende medios para decodificar señales de audio codificadas en señales de audio decodificadas; y una unidad de tratamiento de señales según una de las reivindicaciones 11 a 14 o un renderizador binaural según la reivindicación 15 para el tratamiento de las señales de audio decodificadas.
ES19197000T 2013-07-22 2014-07-18 Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio Active ES2968380T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13177361 2013-07-22
EP20130189255 EP2840811A1 (en) 2013-07-22 2013-10-18 Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Publications (1)

Publication Number Publication Date
ES2968380T3 true ES2968380T3 (es) 2024-05-09

Family

ID=48808220

Family Applications (2)

Application Number Title Priority Date Filing Date
ES19197000T Active ES2968380T3 (es) 2013-07-22 2014-07-18 Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio
ES14741304T Active ES2760873T3 (es) 2013-07-22 2014-07-18 Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14741304T Active ES2760873T3 (es) 2013-07-22 2014-07-18 Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio

Country Status (18)

Country Link
US (5) US9955282B2 (es)
EP (4) EP2840811A1 (es)
JP (4) JP6374502B2 (es)
KR (1) KR101771533B1 (es)
CN (1) CN105519139B (es)
AR (1) AR097002A1 (es)
AU (1) AU2014295165B2 (es)
BR (1) BR112016001136B1 (es)
CA (1) CA2918279C (es)
ES (2) ES2968380T3 (es)
MX (2) MX2016000698A (es)
PL (2) PL3606102T3 (es)
PT (1) PT3025520T (es)
RU (1) RU2642376C2 (es)
SG (1) SG11201600370UA (es)
TW (1) TWI555011B (es)
WO (1) WO2015011055A1 (es)
ZA (1) ZA201601079B (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3806498B1 (en) 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
FR3012247A1 (fr) * 2013-10-18 2015-04-24 Orange Spatialisation sonore avec effet de salle, optimisee en complexite
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US9832589B2 (en) 2013-12-23 2017-11-28 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
KR102149216B1 (ko) 2014-03-19 2020-08-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
EP3257268B1 (en) * 2015-02-12 2019-04-24 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US10038967B2 (en) * 2016-02-02 2018-07-31 Dts, Inc. Augmented reality headphone environment rendering
EP3293987B1 (en) 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN114025301B (zh) 2016-10-28 2024-07-30 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
CN106875953B (zh) * 2017-01-11 2020-10-13 深圳市创成微电子有限公司 模拟混音音频处理方法及系统
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
US9886939B2 (en) * 2017-06-20 2018-02-06 Signal/Noise Solutions, L.L.C. Systems and methods for enhancing a signal-to-noise ratio
US10388265B2 (en) * 2017-06-20 2019-08-20 Signal/Noise Solutions L.L.C. Systems and methods for enhancing a signal-to-noise ratio
WO2019004524A1 (ko) * 2017-06-27 2019-01-03 엘지전자 주식회사 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
CN117198302A (zh) 2017-08-10 2023-12-08 华为技术有限公司 时域立体声参数的编码方法和相关产品
RU2020112483A (ru) * 2017-10-20 2021-09-27 Сони Корпорейшн Устройство, способ и программа для обработки сигнала
US11257478B2 (en) 2017-10-20 2022-02-22 Sony Corporation Signal processing device, signal processing method, and program
EP3570566B1 (en) * 2018-05-14 2022-12-28 Nokia Technologies Oy Previewing spatial audio scenes comprising multiple sound sources
CN109297583B (zh) * 2018-09-14 2020-07-24 北京理工大学 汽车车内双耳异响时变噪声响度评价方法
US10582299B1 (en) * 2018-12-11 2020-03-03 Amazon Technologies, Inc. Modeling room acoustics using acoustic waves
US20230319498A1 (en) * 2020-03-09 2023-10-05 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
WO2021187229A1 (ja) * 2020-03-18 2021-09-23 ソニーグループ株式会社 音響処理装置、音響処理方法および音響処理プログラム
KR102500157B1 (ko) 2020-07-09 2023-02-15 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
CN112037825B (zh) * 2020-08-10 2022-09-27 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
JP7487060B2 (ja) 2020-09-28 2024-05-20 株式会社デンソーテン 音響装置および音響制御方法
JP2022144500A (ja) * 2021-03-19 2022-10-03 ヤマハ株式会社 音信号処理方法および音信号処理装置
US11665377B2 (en) 2021-04-23 2023-05-30 At&T Intellectual Property I, L.P. System and method for identifying encrypted, pre-recorded media content in packet data networks
CN117581297A (zh) * 2021-07-02 2024-02-20 北京字跳网络技术有限公司 音频信号的渲染方法、装置和电子设备
US20230086521A1 (en) * 2021-09-20 2023-03-23 Tencent America LLC Feature compression for video coding for machines
US11877143B2 (en) * 2021-12-03 2024-01-16 Microsoft Technology Licensing, Llc Parameterized modeling of coherent and incoherent sound
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06335094A (ja) * 1993-05-25 1994-12-02 Matsushita Electric Ind Co Ltd 音場再生装置
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP3498888B2 (ja) * 1996-10-11 2004-02-23 日本ビクター株式会社 サラウンド信号処理装置と方法及び映像音声再生方法、記録媒体への記録方法及び記録装置、記録媒体、処理プログラムの伝送方法及び受信方法、並びに記録データの伝送方法及び受信方法
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US20020067836A1 (en) * 2000-10-24 2002-06-06 Paranjpe Shreyas Anand Method and device for artificial reverberation
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP3598993B2 (ja) * 2001-05-18 2004-12-08 ソニー株式会社 符号化装置及び方法
JP4062959B2 (ja) * 2002-04-26 2008-03-19 ヤマハ株式会社 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
JP4077279B2 (ja) * 2002-08-30 2008-04-16 アルパイン株式会社 残響レベル制御装置
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
JP4934427B2 (ja) 2004-07-02 2012-05-16 パナソニック株式会社 音声信号復号化装置及び音声信号符号化装置
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR100764903B1 (ko) 2004-09-07 2007-10-09 김병두 발전소용 미분탄 보일러 노 구조
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
BRPI0608945C8 (pt) 2005-03-30 2020-12-22 Coding Tech Ab codificador de áudio de multi-canal, decodificador de áudio de multi-canal, método de codificar n sinais de áudio em m sinais de áudio e dados paramétricos associados, método de decodificar k sinais de áudio e dados paramétricos associados, método de transmitir e receber um sinal de áudio de multi-canal codificado, mídia de armazenamento legível por computador, e, sistema de transmissão
WO2007043388A1 (ja) * 2005-10-07 2007-04-19 Matsushita Electric Industrial Co., Ltd. 音響信号処理装置および音響信号処理方法
US8670570B2 (en) * 2006-11-07 2014-03-11 Stmicroelectronics Asia Pacific Pte., Ltd. Environmental effects generator for digital audio signals
US8208648B2 (en) * 2007-03-09 2012-06-26 Pioneer Corporation Sound field reproducing device and sound field reproducing method
US7742746B2 (en) * 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
ES2528006T3 (es) * 2008-07-31 2015-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de señales para señales binaurales
CN102460573B (zh) * 2009-06-24 2014-08-20 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
JP2012150278A (ja) * 2011-01-19 2012-08-09 Kitakyushu Foundation For The Advancement Of Industry Science And Technology 仮想空間のビジュアル変化に対応した音響効果の自動生成システム
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR101844336B1 (ko) * 2011-08-01 2018-04-02 삼성전자주식회사 공간감을 제공하는 신호 처리 장치 및 신호 처리 방법
US9674632B2 (en) * 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses

Also Published As

Publication number Publication date
US9955282B2 (en) 2018-04-24
ES2760873T3 (es) 2020-05-18
JP7241447B2 (ja) 2023-03-17
ZA201601079B (en) 2017-08-30
US20210067898A1 (en) 2021-03-04
PL3025520T3 (pl) 2020-04-30
BR112016001136A2 (es) 2017-07-25
US20240171931A1 (en) 2024-05-23
CN105519139B (zh) 2018-04-17
CN105519139A (zh) 2016-04-20
EP3606102C0 (en) 2023-12-13
WO2015011055A1 (en) 2015-01-29
TWI555011B (zh) 2016-10-21
JP2023071866A (ja) 2023-05-23
RU2016105692A (ru) 2017-08-25
US20230032120A1 (en) 2023-02-02
AU2014295165A1 (en) 2016-03-10
PT3025520T (pt) 2019-12-18
EP4297017A3 (en) 2024-03-06
JP6374502B2 (ja) 2018-08-15
EP2840811A1 (en) 2015-02-25
AU2014295165B2 (en) 2017-03-16
TW201521017A (zh) 2015-06-01
KR20160046800A (ko) 2016-04-29
US20160255453A1 (en) 2016-09-01
JP2018182757A (ja) 2018-11-15
KR101771533B1 (ko) 2017-08-25
CA2918279A1 (en) 2015-01-29
SG11201600370UA (en) 2016-02-26
MX2016000699A (es) 2016-04-13
CA2918279C (en) 2018-08-07
BR112016001136B1 (pt) 2022-05-24
JP6879979B2 (ja) 2021-06-02
EP3025520A1 (en) 2016-06-01
US10848900B2 (en) 2020-11-24
US20180206059A1 (en) 2018-07-19
AR097002A1 (es) 2016-02-10
EP3025520B1 (en) 2019-09-18
JP2016531484A (ja) 2016-10-06
PL3606102T3 (pl) 2024-06-17
EP4297017A2 (en) 2023-12-27
US11445323B2 (en) 2022-09-13
EP3606102A1 (en) 2020-02-05
MX2016000698A (es) 2016-04-15
RU2642376C2 (ru) 2018-01-24
US11910182B2 (en) 2024-02-20
JP2021114799A (ja) 2021-08-05
EP3606102B1 (en) 2023-12-13

Similar Documents

Publication Publication Date Title
ES2968380T3 (es) Procedimiento de tratamiento de una señal de audio, unidad de tratamiento de señales, renderizador binaural, codificador de audio y decodificador de audio
ES2758757T3 (es) Método para el procesamiento de una señal de audio de acuerdo con una respuesta al impulso de la habitación, una unidad de procesamiento de señales, un codificador de audio, un decodificador de audio y un renderizador binaural
ES2461601T3 (es) Procedimiento y aparato para generar una señal de audio binaural
ES2524428T3 (es) Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio