ES2396072T3 - Aparato para combinar múltiples fuentes de audio paramétricamente codificadas - Google Patents

Aparato para combinar múltiples fuentes de audio paramétricamente codificadas Download PDF

Info

Publication number
ES2396072T3
ES2396072T3 ES09010510T ES09010510T ES2396072T3 ES 2396072 T3 ES2396072 T3 ES 2396072T3 ES 09010510 T ES09010510 T ES 09010510T ES 09010510 T ES09010510 T ES 09010510T ES 2396072 T3 ES2396072 T3 ES 2396072T3
Authority
ES
Spain
Prior art keywords
channel
sub
original
channels
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09010510T
Other languages
English (en)
Inventor
Johannes Hilpert
Juergen Herre
Karsten Linzmeier
Oliver Hellmuth
Thorsten Kastner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2396072T3 publication Critical patent/ES2396072T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Amplifiers (AREA)
  • Circuit Arrangement For Electric Light Sources In General (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un generador de señal de audio (100) para generar una señal de salida de audio, que comprende: un receptor (102) de señal de audio para recibir: una primera señal de audio (100) que comprende un primer canal de sub-mezcla (110a) que tiene información sobredos o más primeros canales originales y que comprende al menos un parámetro original (110b) asociado con uno de losprimeros canales originales que describe una relación de potencia de uno de los primeros canales originales conrespecto a un canal de referencia; y una segunda señal de audio (112) que comprende un segundo canal de sub-mezcla (112a) que tiene información sobreal menos un segundo canal original; un combinador de canales (104) para derivar un canal de sub-mezcla combinado (114), al combinar el primer canal de sub-mezcla (110a) y el segundo canal de sub-mezcla (112a); un calculador de parámetro (106) para derivar, empleando la energía E{SA2(n)} primer canal de sub-mezcla (110a) y laenergía E{SB2(n)} del al menos un parámetro original (110b), o como alternativa una relación de potencia con respecto aun canal de referencia común, siendo el canal de referencia común el canal original entre los primeros canales originales y teniendo el al menos un segundo canal original la máxima energía dentro de un determinado intervalo detiempo predeterminado, un primer parámetro combinado (116a) que describe la relación de potencia de uno de losprimeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado (116b)que describe la relación de potencia de otro de los primeros canales originales o del al menos un segundo canal originalcon respecto al canal de referencia común; y una interfaz de salida para producir la señal de salida de audio (120) que comprende el canal de sub-mezcla combinado(114), y los parámetros combinados (116a, 116b) primero y segundo.

Description

Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
Campo de la Invención
[0001] La presente invención se refiere a codificación de audio multicanales y, en particular, a un concepto para combinar corrientes de audio paramétricamente codificadas de una manera flexible y eficiente.
ANTECEDENTES DE LA INVENCIÓN Y TÉCNICA ANTERIOR
[0002] El reciente desarrollo en el área de la codificación de audio ha dado lugar a varias técnicas de codificación paramétrica de audio para codificar conjuntamente una señal de audio multicanales (e.g., 5.1 canales) en uno (o más) canales de sub-mezcla más una corriente de información lateral. En general, la corriente de información lateral tiene parámetros relacionados con las propiedades de los canales originales de la señal multicanal, ya sea con respecto a otros canales originales de la señal multicanal, o con respecto al canal de sub-mezcla. La definición particular de los parámetros del canal de referencia a los cuales se refieren estos parámetros, depende de la implementación específica. Algunas de las técnicas conocidas en la técnica son “codificación de indicación binaural”, “codificación de audio espacial” y “estéreo paramétrico”. [0003] Para detalles de estas implementaciones particulares, se hace referencia en la presente a las publicaciones relacionadas. Por ejemplo, la codificación de indicación binaural se detalla en:
C. Faller y F. Baumgarte, “Efficient representation of spatial audio using perceptual parametrization” (Representación eficiente del audio espacial utilizando parametrización perceptual), IRRR WASPAA, Mohonk, NY, Octubre 2001; F. Baumgarte y C Faller, “Estimation of auditory spatial cues for binaural cue coding” (Estimación de las señales de entrada espaciales auditivas para la codificación de indicación binaural), ICASSP, Orlando, FL, Mayo 2002; C. Faller y F. Baumgarte, “Binaural cue coding: a novel and efficient representation of spatial audio” (Codificación de indicación binaural: una nueva y eficiente representación del audio espacial), ICASSP, Orlando, FL, Mayo 2002; C. Faller y F. Baumgarte, “Binaural cue coding applied to audio compression with flexible rendering” (Codificación de indicación binaural aplicada a la compresión de audio con representación flexible”, AES 113th Convention, Los Angeles, Preimpresión 5686, Octubre 2002; C. Faller y F. Baumgarte, “Binaural cue coding – Part II: Schemes and applications”, (Codificación de indicación binaural – Parte II: Esquemas y aplicaciones) IEEE Trans. On Speech and Audio Proc., vol., 11, no. 6, Noviembre 2003, y J. Herre, C. Faller et al., “Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio” (Codificación de audio espacial: codificación de siguiente generación, eficiente y compatible de audio multicanales), Audio Engineering Society Convention Paper, Octubre 28, 2004, San Francisco, CA. EUA.
[0004] Aunque la codificación de indicación binaural utiliza múltiples canales originales, el estéreo paramétrico es una técnica relacionada para la codificación paramétrica de una señal de estéreo de dos canales dando como resultado una mono señal transmitida e información lateral de parámetro, por ejemplo, como se revisa en las siguientes publicaciones:
J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “High-Quality Parametric Spatial Audio Coding at Low Bit rates” (Codificación de audio espacial paramétrica de alta calidad a bajas velocidades de transmisión), AES 116th Convention, Berlín, Preimpresión 6072, Mayo 2004; E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, “Low Complexity Parametric Stereo Coding” (Codificación de estéreo paramétrica de baja complejidad), AES 116th Convention, Berlín, Preimpresión 6073, Mayo 2004.
[0005] Otras tecnologías se basan en la multiplexión de números arbitrarios de fuentes u objetos de audio en un solo canal de transmisión de audio. Los esquemas a base de multiplexión, por ejemplo, se introducen como “representación flexible” en publicaciones relacionadas con BCC (codificación de indicación binaural), o, más recientemente, mediante un esquema llamado “codificación de fuente de unión” (JSC). Las publicaciones relacionadas son, por ejemplo: C. Faller, “Parametric Joint Coding of Audio Sources” (Codificación de unión paramétrica de fuentes de audio), Convention Paper 6752, 120th AES Convention, París, Mayo 2006. Similar a los esquemas de codificación de indicación paramétrica de estéreo y binaural, estas técnicas se destinan a codificar múltiples objetos de audio originales (canales) para la transmisión mediante menos canales de sub-mezcla. Mediante la derivación adicional de los parámetros en base a objetos para cada canal de entrada, que pueden encontrarse codificados a una muy baja proporción de datos y que también se transmiten a un receptor, estos objetos pueden separarse en el lado receptor y representarse (mezclarse) para cierto número de dispositivos de salida, como por ejemplo, audífonos, altavoces estéreo de dos canales o instalaciones de altavoz multicanales. Este procedimiento permite el ajuste y la redistribución (panorámica) del nivel de los diferentes objetos de audio hacia diferentes ubicaciones en la instalación de reproducción, i.e., en el lado receptor.
[0006] Básicamente, tales técnicas operan como transmisor M-k-N, siendo M el número de objetos de audio en la entrada, siendo k el número de canales de sub-mezcla transmitidos, típicamente k es < 2. N es el número de canales de audio en la salida de representación, i.e., por ejemplo, el número de altavoces. Es decir, N = 2 para una
representación estéreo o N = 6 para una instalación multicanales 5.1. En términos de eficiencia de compresión, los valores típicos son, e.g., 64 kbps o menos para un canal de sub-mezcla perceptualmente codificado (que consiste de canales de audio k) y de aproximadamente 3 kbps para los parámetros de objeto por objeto de audio transmitido.
[0007] Los escenarios de aplicación para las técnicas anteriores son, por ejemplo, codificar las escenas de audio espacial relacionadas con cine-película-producciones para permitir la reproducción espacial del sonido en un sistema de teatro casero. Los ejemplos comunes son las pistas de sonido envolvente 5.1 y 7.1 ampliamente conocidas en un medio de películas tal como DVD y lo similar. Las producciones de películas se han vuelto más y más complejas con respecto a las escenas de audio, destinadas a proporcionar una experiencia de percepción auditiva espacial y por tanto tienen que mezclarse con gran cuidado. Diferentes ingenieros de sonido pueden comisionarse con la mezcla de las diferentes fuentes envolventes o efectos de sonido y, en consecuencia, es deseable la transmisión de escenarios multicanales paramétricamente codificados entre los ingenieros de sonido individuales para transportar las corrientes de audio de los ingenieros de sonido individuales de manera eficiente.
[0008] Otro escenario de aplicación para tal tecnología es la tele-conferencia con múltiples hablantes en cualquier extremo de una conexión de punto-a-punto tal como se describe en US 2005/ 0062843. Para ahorrar el ancho de banda, la mayoría de las instalaciones de tele-conferencia operan con transmisión monofónica. Por ejemplo, puede lograrse utilizando codificación de fuente unida o una de las otras técnicas de codificación multicanales para la transmisión, redistribución y alineación de nivel de los diferentes hablantes en el extremo receptor (cada extremo) y por tanto, la inteligibilidad y el balance de los hablantes se mejora gastando una velocidad de transmisión marginalmente incrementada en comparación con un sistema monofónico. La ventaja de la inteligibilidad incrementada se hace particularmente evidente en el caso especial de la asignación a cada individuo participante de la conferencia a un canal único (y, por tanto al orador) de una instalación de servicio multicanales en un extremo receptor. Sin embargo, este es un caso especial. En general, el número de participantes no igualará el número de oradores en el extremo receptor. Sin embargo, utilizando la instalación de servicio existente es posible representar la señal asociada con cada participante de manera que parezca originarse desde cualquier posición deseada. Es decir, el participante individual no solo se reconoce por su voz diferente, sino también por la ubicación de la fuente de audio relacionada con el participante hablante.
[0009] Aunque el estado de las técnicas de la técnica implementa conceptos acerca de cómo codificar eficientemente canales u objetos de audio múltiples, todas las técnicas actualmente conocidas carecen de la posibilidad de combinar dos o más de estas corrientes de audio transmitidas de manera eficiente para derivar una corriente de salida (señal de salida), que es una representación de todas las corrientes de audio de entrada (señales de audio de entrada).
[0010] El problema surge, por ejemplo, cuando se considera un escenario de tele-conferencia con más de dos ubicaciones, teniendo cada ubicación uno o más oradores. Entonces, se requiere una instancia intermedia para recibir las señales de entrada de audio de las fuentes individuales y para generar una señal de salida de audio para cada ubicación de tele-conferencia que tenga solamente la información de las ubicaciones de tele-conferencia restantes. Es decir, la instancia intermedia tiene que generar una señal de salida, que se deriva de una combinación de dos o más señales de entrada de audio y que permite una reproducción de los canales de audio u objetos de audio individuales de las dos o más señales de entrada.
[0011] Puede presentarse un escenario similar cuando dos ingenieros de audio en una producción de cine-película desean combinar sus señales de audio espacial para verificar la impresión de percepción auditiva generada por ambas señales. Entonces, puede ser deseable combinar directamente dos señales multicanales codificadas para verificar la impresión de percepción auditiva combinada. Es decir, una señal combinada necesita ser tal que se asemeje a todos los objetos (fuentes) de audio de los dos ingenieros de audio.
[0012] Sin embargo, de acuerdo con las técnicas de la técnica anterior, tal combinación es solo posible decodificando las señales de audio (corrientes). Entonces, las señales de audio decodificadas pueden re-codificarse de nuevo mediante los codificadores multicanales de la técnica anterior para generar una señal combinada en la cual todos los canales de audio u objetos de audio originales se representan apropiadamente.
[0013] Esto tiene la desventaja de una alta complejidad computacional, desperdiciando así mucha energía y algunas veces haciendo imposible aplicar el concepto, especialmente en escenarios en tiempo real. Además, una combinación mediante subsecuente decodificación y re-codificación del audio puede ocasionar un retraso considerable debido a las dos etapas de procesamiento, lo cual es inaceptable para ciertas aplicaciones, tales como teleconferencia/telecomunicación.
Resumen de la Invención
[0014] Un objetivo de la presente invención es proporcionar un concepto para combinar eficientemente múltiples señales de audio paramétricamente codificadas.
[0015] De acuerdo con un primer aspecto de la presente invención, este objetivo se logra mediante un generador de señal de audio de acuerdo con la reivindicación 1 para generar una señal de salida de audio, comprendiendo el generador de señal de audio: un receptor de señal de audio para recibir una primera señal de audio que comprende un primer canal de sub-mezcla que tiene información sobre dos o más primeros canales originales y que comprende un parámetro original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal de audio que comprende un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original; un combinador de canales para derivar un canal de sub-mezcla combinado al combinar el primer canal de sub-mezcla y el segundo canal de sub-mezcla; un calculador de parámetro para derivar un primer parámetro combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado que describe la propiedad de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y una interfaz de salida para producir la señal de salida de audio que comprende el canal de sub-mezcla combinado y los parámetros combinados primero y segundo.
[0016] De acuerdo con un segundo aspecto de la presente invención, este objetivo se logra mediante un procedimiento para generar una señal de salida de audio de acuerdo con la reivindicación 10, comprendiendo el procedimiento: recibir una primera señal de audio que comprende un primer canal de sub-mezcla que tiene información sobre dos o más primeros canales originales y que comprende un parámetro original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal de audio que comprende un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original; derivar un canal de sub-mezcla combinado al combinar el primer canal de sub-mezcla y el segundo canal de sub-mezcla; derivar un primer parámetro combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado que describe la propiedad de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y producir la señal de salida de audio que comprende el canal de sub-mezcla combinado y los parámetros combinados primero y segundo.
[0017] De acuerdo con un tercer aspecto de la presente invención, este objetivo se logra mediante una corriente de datos de una representación de tres o más canales de audio tal como se define en la reivindicación 11, que comprende: un canal de sub-mezcla combinado que es una combinación de un primer canal de sub-mezcla que tiene información sobre al menos dos primeros canales originales y un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original; un primer parámetro que describe una propiedad de uno de los al menos dos primeros canales originales con respecto a un canal de referencia; y un segundo parámetro que describe la propiedad de otro canal de los primeros canales originales o la propiedad del al menos un segundo canal original con respecto al canal de referencia.
[0018] De acuerdo con un cuarto aspecto de la presente invención, este objetivo se logra mediante un programa de computadora que implementa un procedimiento para generar una señal de salida de audio tal como se define en la reivindicación 13, comprendiendo el procedimiento: recibir una primera señal de audio que comprende un primer canal de sub-mezcla que tiene información sobre dos o más primeros canales originales y que comprende un parámetro original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal de audio que comprende un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original; derivar un canal de sub-mezcla combinado al combinar el primer canal de sub-mezcla y el segundo canal de sub-mezcla; derivar un primer parámetro combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado que describe la propiedad de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y producir la señal de salida de audio que comprende el canal de sub-mezcla combinado y los parámetros combinados primero y segundo.
[0019] De acuerdo con un quinto aspecto de la presente invención, este objetivo se logra mediante un sistema de conferencia que tiene un generador de señal de audio para generar una señal de salida de audio, que comprende: un receptor de señal de audio recibir una primera señal de audio que comprende un primer canal de sub-mezcla que tiene información sobre dos o más primeros canales originales y que comprende un parámetro original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal de audio que comprende un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original; un combinador de canal para derivar un canal de sub-mezcla combinado al combinar el primer canal de sub-mezcla y el segundo canal de sub-mezcla; un calculador de parámetro para derivar un primer parámetro combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado que describe la propiedad de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y una interfaz de salida para producir la señal de salida de audio que comprende el canal de sub-mezcla combinado y los parámetros combinados primero y segundo.
[0020] Según algunas realizaciones de la presente invención, el calculador de parámetros es operativo para usar un canal predeterminado de los primeros canales originales o el al menos un segundo canal original como canal de referencia común.
[0021] Según algunas realizaciones de la presente invención, el canal de referencia común se escoge para ser el canal de referencia de la primera señal de audio.
[0022] Según realizaciones adicionales de la presente invención, el canal de referencia común se escoge para ser el canal combinado de sub-mezcla.
[0023] Según realizaciones adicionales de la presente invención, el canal de referencia común se escoge para ser el canal original que tiene la mayor energía.
[0024] Según realizaciones adicionales de la presente invención, el receptor de señal de audio es operativo para recibir señales de audio que comprenden canales de sub-mezcla representados por parámetros de muestreo muestreados con una frecuencia de muestreo predeterminada.
[0025] La presente invención se basa en el descubrimiento de que múltiples señales de audio paramétricamente codificadas pueden combinarse eficientemente utilizando un generador de señal de audio o un combinador de señal de audio, que genera una señal de salida de audio al combinar los canales de sub-mezcla y los parámetros asociados de las señales de entrada de audio directamente dentro del dominio de parámetro, i.e., sin reconstruir o decodificar las señales de entrada de audio individuales antes de la generación de la señal de salida de audio. Para ser más específicos, esto se logra mezclando directamente los canales de sub-mezcla asociados de las señales de entrada individuales, por ejemplo mediante la suma o formación de una combinación lineal de los mismos. Una característica clave de la presente invención es que la combinación de los canales de sub-mezcla se logra mediante simples operaciones aritméticas computacionalmente no costosas, tales como sumas.
[0026] Lo mismo se aplica para la combinación de los parámetros que se asocian a los canales de sub-mezcla. Dado que al menos un sub-conjunto de los parámetros asociados tendrá que alterarse durante la combinación de las señales de audio de entrada, lo más importante es que los cálculos llevados a cabo para alterar los parámetros sean simples y, por tanto, no necesiten energía computacional significativa ni incurrir en retrasos adicionales, e.g., utilizando bancos de filtro u otras operaciones que impliquen memoria.
[0027] De acuerdo con una realización de la presente invención, se implementa un generador de señal de audio para generar una señal de salida de audio para combinar una primera y una segunda señal de audio, encontrándose ambas paramétricamente codificadas. Para generar la señal de salida de audio, el generador de señal de audio de la invención extrae los canales de sub-mezcla de las señales de audio de entrada y genera un canal de sub-mezcla combinado formando una combinación lineal de los dos canales de sub-mezcla. Es decir, los canales individuales se agregan aplicando pesos adicionales.
[0028] En una realización preferida de la presente invención, los pesos aplicados se derivan mediante operaciones aritméticas extremadamente simples, por ejemplo, utilizando el número de canales representados por la primera señal de audio y la segunda señal de audio como una base para el cálculo.
[0029] En una realización adicional preferida, el cálculo de peso se lleva a cabo asumiendo que cada canal de audio original de las señales de entrada contribuye a la energía de señal total con la misma cantidad. Es decir, los pesos aplicados son proporciones simples de los números de canal de las señales de entrada y del número total de canales.
[0030] En una realización adicional preferida de la presente invención, los pesos de los canales de sub-mezcla individuales se calculan en base a la energía contenida dentro de los canales de sub-mezcla a fin de permitir una reproducción más auténtica del canal de sub-mezcla combinado incluido en la señal de audio de salida generada.
[0031] En una realización adicional preferida de la presente invención, el esfuerzo computacional disminuye además en que solamente los parámetros asociados con una de las dos señales de audio se alteran. Es decir, los parámetros de la otra señal de audio se transmiten inalterados, en consecuencia sin ocasionar ninguna computación y por tanto, minimizando la carga en el generador de señal de audio de la invención.
[0032] En los siguientes párrafos, el concepto de la invención se detallará principalmente para un esquema de codificación utilizando codificación de fuente de unión (JSC). En ese sentido, la presente invención extiende esta tecnología para conectar múltiples transceptores monofónicos o habilitados por JSC a estaciones remotas, mezclando las señales de sub-mezcla de JSC y la información del objeto dentro del dominio de parámetro. Como lo han mostrado las consideraciones anteriores, el concepto de la invención no se restringe en modo alguno al uso de codificación JSC, sino que también podría implementarse con codificación BCC u otros esquemas de codificación multicanales, tales como codificación MPEG de audio espacial (MPEG envolvente) y lo similar.
[0033] Dado que el concepto de la invención se detallará principalmente utilizando codificación JSC, la codificación JSC se revisará brevemente dentro de los siguientes párrafos a fin de señalar más claramente la flexibilidad del concepto de la invención y las mejoras que pueden lograrse sobre la técnica anterior al aplicar el concepto de la invención a esquemas existentes de codificación de audio multicanales.
Breve Descripción de los Dibujos
[0034]
La Figura 1 muestra un ejemplo de un esquema de codificación JSC;
La Figura 2 muestra un ejemplo de un representador de JSC;
La Figura 3 muestra un escenario de tele-conferencia con dos ubicaciones;
La Figura 4 muestra un escenario de tele-conferencia con tres ubicaciones;
La Figura 5 muestra un ejemplo de tele-conferencia utilizando un generador de señal de audio de la invención;
La Figura 6 muestra un ejemplo adicional de tele-conferencia utilizando un generador de señal de audio de la invención;
La Figura 6b muestra la compatibilidad inversa del concepto de la invención; y
La Figura 7 muestra un ejemplo para un generador de señal de audio de la invención.
[0035] Para la explicación de la codificación JSC, se hará referencia en lo siguiente a las Figuras 1 y 2. Dentro de las siguientes figuras, los componentes funcionalmente idénticos comparten las mismas marcas de referencia, indicando que los componentes individuales que proporcionan la misma funcionalidad pueden intercambiarse entre las realizaciones individuales de la presente invención sin perder o restringir la funcionalidad y sin limitar el alcance de la presente invención.
[0036] La Figura 1 muestra un diagrama en bloque del esquema de codificación de la fuente de unión, un codificador 2 correspondiente y un decodificador 4 correspondiente.
[0037] El codificador 2 recibe entradas de audio discretas Si(N), 6a, 6b, y 6c, y crea una señal de sub-mezcla s(n) 8, por ejemplo, mediante la suma de las formas de onda.
[0038] Adicionalmente, un extractor de parámetro 10 dentro del codificador 2 extrae la información lateral paramétrica para cada objeto individual (señal 6a, 6b y 6c). Aunque no se muestra en la Figura 1, la señal de sub-mezcla 8 puede comprimirse adicionalmente mediante un codificador de habla o audio y se transmite con la información lateral paramétrica al decodificador JSC 4. Un módulo de síntesis 12, dentro del decodificador 4 regenera los estimados 14a, 14b y 14c (si(n)) de los objetos de entrada (canales 6a, 6b y 6c).
[0039] A fin de reconstruir los estimados 14a, 14b y 14c, siendo perceptualmente similares a los objetos de entrada discretos (canales de entrada) 6a, 6b y 6c, tiene que extraerse la información lateral paramétrica apropiada para cada canal. Dado que se suman los canales individuales para la generación de la señal de sub-mezcla 8, las proporciones de energía entre los canales son tales cantidades adecuadas. En consecuencia, la información paramétrica para los diferentes objetos o canales consiste de proporciones de energía delta p de cada objeto para el primer objeto (objeto de referencia).
[0040] Esta información se deriva en el dominio de frecuencia en bandas de frecuencia no uniformemente separadas (sub-bandas) que corresponden a la resolución de banda crítica de la percepción auditiva humana. Este es un concepto descrito en mayor detalle, por ejemplo, en: J. Blauert, “Spatial Hearing: The Psychophysics of Human Sound Localization” (Audición espacial: la sicofísica de la localización sonora humana), The MIT Press, Cambridge, MA, edición revisada 1997.
[0041] Es decir, los canales de audio de entrada de banda ancha se filtran hacia varias bandas de frecuencia de ancho de banda finito y para cada una de las bandas de frecuencia individuales se llevan a cabo los siguientes cálculos. Como ya se mencionó, la energía de banda del primer objeto (objeto de referencia o canal de referencia) actúa como un valor de referencia.
E s{i2(n)}
Ipi(n) =10log10 , i = 2...M Ecuación 1 E{s12(n)}
[0042] Para evitar la introducción adicional de artefactos, por ejemplo, introducidos por medio de una división entre cero, estas proporciones de energía (en la representación logarítmica) pueden limitarse además a un máximo de, por ejemplo, 24 dB en cada sub-banda. La proporción de energía puede además cuantificarse antes de someterse para ahorrar adicionalmente el ancho de banda de transmisión. [0043] No es necesario transmitir explícitamente la energía del primer objeto. Por el contrario, este valor puede derivarse de la presunción de que, para objetos estadísticamente independientes, la suma de las energías de las señales sintetizadas si(n) es igual a la energía de la señal de sub-mezcla s(n). En términos de una expresión matemática, esto significa:
M
E s{2(n)}=LE{sˆi2(n)} Ecuación 2
i1
[0044] En base a esta presunción y ecuación, las energías de sub-banda para el primer objeto (objeto de referencia o
canal de referencia) pueden reconstruirse, como se describirá adicionalmente a continuación al detallar el concepto de la invención.
[0045] Para resumir, una señal de audio o corriente de audio, de acuerdo con JSC, comprende un canal de sub-mezcla y parámetros asociados, describiendo los parámetros proporciones de energía de los canales originales con respecto a un canal de referencia original. Puede notarse que este escenario puede alterarse fácilmente en que otros canales se seleccionan para ser el canal de referencia. Por ejemplo, el canal de referencia por sí mismo puede ser el canal de referencia, requiriendo la transmisión de un parámetro adicional, relacionando la energía del primer canal de referencia anterior con la energía del canal de sub-mezcla. También, el canal de referencia puede seleccionarse para ser variable, en que el único canal que tiene la mayor energía se selecciona para ser el canal de referencia. De aquí que, dado que la energía dentro de los canales individuales puede cambiar con el tiempo, el canal de referencia también puede variar con el tiempo. También, debido al hecho de que todo el procesamiento se lleva a cabo típicamente de una manera de frecuencia selectiva, el canal de referencia puede ser diferente para diferentes bandas de frecuencia.
[0046] La Figura 2 muestra un esquema adicional mejorado de la codificación JSC, en base al esquema de la Figura 1. Las características detalladas con respecto a la Figura 1, se encuentran incluidas con la caja de almacenamiento o transmisión 20, que recibe los canales de entrada 6 que van a codificarse y los estimados 14 que salen de los canales de entrada 6. El esquema de la Figura 2 es mejorado en que comprende además un mezclador 22 que recibe los estimados. Es decir, los objetos sintetizados 14 no salen directamente cono señales de audio únicas, sino representados a los canales de salida N en el módulo de mezclador. Tal mezclados puede implementarse de diferentes maneras, por ejemplo, recibiendo los parámetros de mezclado 24 adicionales como entrada, para dirigir el mezclado de los objetos sintetizados 14. Solo como ejemplo, puede considerarse un escenario de tele-conferencia, en el cual cada uno de los canales de salida 26 se atribuye a un participante de la conferencia. En consecuencia, un participante en el extremo receptor tiene la posibilidad de separar virtualmente a los otros participantes asignando sus voces a posiciones individuales. Por tanto, no solamente la voz puede servir como criterio para distinguir entre los diferentes participantes de una conferencia telefónica, sino también la dirección desde la cual el que escucha recibe la voz de un participante. Además el que escucha puede disponer el canal de salida de tal manera que todos los participantes desde la misma ubicación de tele-conferencia se agrupan en la misma dirección, mejorando aún más la experiencia perceptual.
[0047] Como se muestra en la Figura 2, sl(n)...sM(n) denota los objetos de audio discretos en la entrada del codificador JSC. En la salida del decodificador JSC sl(n)...sM(n) representa los objetos de audio virtualmente separados que se alimentan en el mezclador. Los parámetros de mezclado 24 pueden modificarse interactivamente en el lado del receptor para colocar los diferentes objetos en una etapa de sonido que se reproduce mediante los canales de salida sl(n)...sN(n).
[0048] La Figura 3 muestra la aplicación de esquemas de codificación de audio multicanales a un escenario básico de tele-conferencia, teniendo lugar entre dos ubicaciones. Aquí, una primera ubicación 40 se comunica con una segunda ubicación 42. La primera ubicación puede tener A participantes, i.e., A objetos de audio, la segunda ubicación tiene B participantes u objetos de audio. Para tele-conferencia de punto-a-punto, la tecnología descrita de codificación JSC puede aplicarse directamente para transmitir las señales de audio de objetos múltiples en cada ubicación a la estación remota correspondiente. Es decir, los parámetros (A-1) ai y una sub-mezcla asociada, se transfieren a la ubicación 42. En la dirección opuesta, los parámetros (B-1) bl se transmiten conjuntamente con una sub-mezcla asociada a la ubicación 40.
[0049] Para tele-conferencia con más de dos puntos de extremo, la situación es completamente diferente como se ilustra en la Figura 4.
[0050] La Figura 4 muestra, además de las ubicaciones 40 y 42, una tercera ubicación 44. Como puede observarse en la Figura 4, tal escenario necesita un distribuidor central para las señales de audio asociadas, generalmente llamado unidad de control de puntos múltiples, MCU. Cada una de las ubicaciones (sitios) 40, 42 y 44 se encuentra conectado a la MCU 46. Para cada sitio 40, 42 y 44, existe una corriente ascendente única para la MCU que contiene la señal del sitio. Dado que cada sitio individual necesita recibir las señales de los sitios restantes, la corriente descendente para cada sitio 40, 42 y 44 es una mezcla de las señales de los otros sitios, excluyendo la señal propia del sitio, que también se refiere como la señal (N-1). Generalmente, para cumplir con los requerimientos de la instalación y para mantener el ancho de banda de transmisión razonablemente bajo, no es posible transmitir las corrientes codificadas JSC N-1 desde la MCU a cada sitio. Esto, por supuesto, sería la opción directa.
[0051] El estado de la técnica que apunta a derivar las corrientes descendentes individuales es para sintetizar todas las corrientes entrantes (objetos) dentro de la MCU 46 utilizando un decodificador JSC. Entonces, los objetos de audio resintetizados podrían reagruparse y re-codificarse a fin de proporcionar cada sitio con corrientes de audio que comprenden los objetos de audio o los canales de audio deseados. Incluso dentro de este simple escenario, esto significaría tres tareas de decodificación y tres de codificación, las cuales deben llevarse a cabo simultáneamente dentro de la MCU 46. A pesar de las demandas computacionales significativas, pueden esperarse adicionalmente artefactos audibles mediante este proceso paramétrico de “codificación en serie” (codificación/decodificación repetida). El incremento del número de sitios incrementaría adicionalmente el número de corrientes y, por tanto, el número de procesos de codificación o decodificación requerido, haciendo imposibles los procedimientos directos para escenarios en tiempo real.
[0052] De acuerdo con la presente invención, en consecuencia, se desarrolla un esquema para mezclar diferentes corrientes paramétricamente codificadas (corrientes JSC en este ejemplo particular) directamente dentro del dominio de sub-mezcla y del objeto para tal escenario tipo MCU, creando las señales de salida deseadas (corrientes de audio de salida) con un mínimo de esfuerzo computacional y de pérdida de calidad.
[0053] Dentro de los siguientes párrafos, el concepto de la invención de mezclar directamente las corrientes de audio multicanales paramétricamente codificadas dentro del dominio de parámetro, se detalla para corrientes de audio codificadas por JSC.
[0054] El concepto de la invención se explica con la combinación de dos señales de audio originales (corrientes) en una señal de salida. Al unir tres o más corrientes juntas pueden derivarse fácilmente en el caso de combinar dos corrientes. Las siguientes consideraciones matemáticas se ilustran por la Figura 5, que muestra un caso en donde tienen que combinarse tres canales de audio del sitio A con cuatro canales de audio del sitio B. Este es, por supuesto, solamente un ejemplo para visualizar el concepto de la invención. Al utilizar la codificación JSC, el sitio 50 (A) que tiene tres participantes de conferencia (hablantes) 52a a 52c, que generan señales sAx, transmite una corriente de audio o señal de audio 54. La señal de audio 54 tiene un canal de sub-mezcla sA y parámetros a2 y a3, que relacionan la energía de los canales 52b y 52c con la energía del canal 52a. De manera equivalente, el sitio 56 (B) transmite una señal de audio 58 que tiene un canal de sub-mezcla sB y tres parámetros b2, b3 y b4, que son la representación codificada por JSC de cuatro hablantes 60a a 60d. La MCU 46 combina las señales de audio 54 y 58 para derivar una señal de salida 62 que tiene un canal de sub-mezcla combinado sY y seis parámetros y2,...y7.
[0055] En el lado receptor, el receptor 64 decodifica la señal de salida 62 para derivar representaciones de los 7 objetos de audio o canales de audio de los sitios 50 y 56.
[0056] En términos generales, el objetivo es formar una sola representación combinada 62 de dos corrientes de JSC 54 y 58, representando cada una un número de objetos mediante una señal de sub-mezcla común sy y un conjunto de parámetros de objeto que caracterizan los objetos. Idealmente, la representación de JSC combinada debe ser idéntica a la que se obtendría codificando el conjunto total de señales fuente originales que unen ambas corrientes JSC en una sola corriente JSC en una etapa.
[0057] Para mantener simples las siguientes ecuaciones, asumimos que las proporciones de energía relativas de la Ecuación 1 no se encuentran disponibles en el dominio logarítmico, sino solo como proporciones de energía. Cada parámetro de objeto ri(n) de un cierto objeto i puede derivarse como
E{s2 (n)}
ri(n) = ri Ecuación 3 E{sr21 (n)}
[0058] La transposición en el dominio logarítmico puede aplicarse posteriormente a cada parámetro a fin de permitir la cuantificación utilizando una escala logarítmica de energía. [0059] Todas las señales siguientes se asumen descompuestas en una representación de sub-banda, por tanto, cada uno de los cálculos se aplica para cada sub-banda por separado. [0060] Tenemos la corriente A, con su señal de sub-mezcla sA y los parámetros (proporciones de energía relativas) para los objetos U a2...aU. La corriente B consiste de la señal de sub-mezcla sB y los parámetros para los objetos V b2...bv. [0061] La señal de sub-mezcla combinada sy puede formarse como una combinación lineal de ambas señales de submezcla sA y sB. Para asegurar el nivelado de volumen correcto de las diferentes contribuciones de objeto, pueden aplicarse los factores de ganancia gA y gB.
sY = gA � sA gB � sB
UV
con g = , g =
A(U V ) B (U V )
[0062] Este tipo de escala puede ser significativa si se han sumado fuentes de sonido individuales de igual energía promedio y si se han normalizado a la escala total de la trayectoria de sub-mezcla. [0063] Alternativamente, podría utilizarse un procedimiento de conservación de energía para los factores de ganancia con
U V
g =
, g =
A (U V ) B (U V )
[0064] Otra posibilidad es seleccionar el factor de ganancia de tal manera que ambas señales de sub-mezcla contribuyan a la misma energía promedio para la sub-mezcla combinada, i.e., seleccionando
E{sA2 (n)}
gB
=
}•
gA
E{sB2 (n)
[0065] Los parámetros de objeto yi para la corriente combinada sy deben representar todos los objetos U + V.
[0066] Dado que los parámetros asociados con los canales de sub-mezcla son proporciones de energía relativa, los parámetros a2,...,au pueden utilizarse como se encuentran (inalterados) y los parámetros para los objetos de B pueden concatenarse a los parámetros a2,...,au. Una vez seleccionado el primer objeto de la señal A para ser el objeto de referencia o canal de referencia, los parámetros originales bi tienen que transformarse para relacionarse con ese canal de referencia. Puede notarse que solamente los parámetros de una corriente tienen que recalcularse, disminuyendo adicionalmente la carga computacional dentro de una MCU 46.
[0067] Puede notarse además que de ningún modo es necesario utilizar el canal de referencia de una de las corrientes de audio originales como nuevo canal de referencia. El concepto de la invención de combinar corrientes de audio paramétricamente codificadas dentro del dominio de parámetro, puede implementarse también muy bien con otros canales de referencia, seleccionados del número de canales originales de los sitios A o B. Una posibilidad adicional sería utilizar el canal de sub-mezcla combinado como un nuevo canal de referencia.
[0068] Siguiendo este procedimiento de utilizar el canal de referencia original del sitio A como nuevo canal de referencia (canal de referencia combinado), la energía poder) del primer objeto (canal) de cada señal A y B tiene que calcularse primero, dado que estos se encuentran solo implícitamente disponibles.
[0069] La representación de energía para la señal de sub-mezcla A, asumiendo las fuentes estadísticamente independientes, proporciona:
{ 2 }U { 2 }
E{S ()n .=LE{Sˆ ()n .• A i=1 i
{2 {{2 }[0070] Las energías de señal E{SA ()n .} E{SA n ., se definen con sus energías relativas "2..."U hasta
... () 2 {U
E {{SA()n }.: 2
[0071]
{2{2 }
{().}=a •ES ()n .
E{Sn {
A 2
{ A
2 1
{2 }{2 }{().=a ES ().
E{SA n •{n
3 A
{ 1
...
2 {2
().} =a ES ().}
E {Sn •{ n {
AU U A1
[0072] Esto conduce a la energía de sA1 como:
{ 2 }
E{S ().
n
{ 2 } A
5 E{S ().
n =
A (1 aa ... aU )
1 23
[0073] Al aplicar lo mismo para la señal de sub-mezcla sB, se puede calcular la energía del objeto sB1 como:
{ 2 }
E{S ().
n
{ 2 } B
E{S ()n .=
15 B1 (1 b2 b3 ... bV )
[0074] Ahora se puede construir el nuevo conjunto de parámetros para todos los objetos de la señal sy: y1: (no transmitido, objeto de referencia, implícitamente disponible)
20 y2 = a2 y3 = a3 ... yU = aU
2 { 2 }
gE{S ()n .BB1
yU+1 = • , 2 { 2 }
30 E{S ().gnAA1
(proporción de energía del primer objeto de la señal B con respecto al objeto de referencia A1)
2 { 2 }
gE{S ().
n
B
B 1
yU+2 = b2 •• , 2 { 2 }
40 gE{S ()n .AA1
(proporción de energía del segundo objeto de la señal B renormalizada a la energía del objeto de referencia A1)
2 { 2 }
gE{S ()n .
BB1
50 yU+3 = b3 ••2 { 2 }
gE{S ()n .
AA1
2 }
gE{{S 2 ().
n
BB1 yU+V = bV •• 2 { 2 }
gE{S ()n .
AA1
[0075] Como lo han mostrado los párrafos anteriores, el concepto de la invención permite la generación de una corriente 65 de audio combinada utilizando solamente operaciones aritméticas simples, siendo, por tanto computacionalmente extremadamente eficiente. Por tanto, la combinación de múltiples corrientes de audio paramétricamente codificadas puede llevarse a cabo en tiempo real.
[0076] Para enfatizar adicionalmente la gran flexibilidad del concepto de la invención, la Figura 6 muestra cómo una señal monofónica 70, ocasionada por un solo hablante en el sitio 56, puede combinarse de acuerdo con la invención, con dos o más señales codificadas por JSC de los hablantes en el sitio 50. Es decir, debido a la flexibilidad del concepto de la invención, las señales monofónicas de los sistemas de tele-conferencia arbitrarios pueden combinarse de acuerdo con la invención, con fuentes multicanales paramétricamente codificadas (multi-objetos) para generar una señal de audio codificada por JSC que representa todos los canales de audio originales (objetos).
[0077] Al extender la compatibilidad también con estaciones remotas que no son capaces de transmitir objetos JSC, sino señales tradicionales monofónicas, esta técnica también es aplicable para insertar un objeto monofónico, e.g., desde un dispositivo de conferencia legado hacia la corriente basada en el objeto.
[0078] El ejemplo anterior con la corriente JSC A (sub-mezcla sA, parámetros a2...aU) y un objeto monofónico C (submezcla sC) conduce a una señal combinada Z con la señal de sub-mezcla
SZ = gA SA + gC SC
con factores de ganancia como se trató previamente y sus parámetros de objeto:
y1: no transmitido (canal de referencia, implícitamente disponible) y2 = a2 y3 = a3 ... yU = aU
g 2 E{{S 2 ()n }.
CC
yU+1 = • , 2 { 2 }
gE{S ().
n AA1
(proporción de energía de la señal C con respecto al objeto de referencia A1)
[0079] El ejemplo antes mencionado para transcodificar/fusionar dos corrientes JSC, depende de la representación de la energía de los objetos como se proporciona en la Ecuación 1. No obstante, el mismo esquema de la invención puede aplicarse también a otras formas de representar esta información.
[0080] La Figura 6b enfatiza de nuevo la gran flexibilidad del concepto de la invención incorporando una fuente de audio monofónica. La Figura 6b se basa en el escenario multicanales de la Figura 4 y además muestra cuán fácilmente puede integrarse un codificador de audio monofónico de la técnica anterior en una fuente de audio c(44), en una conferencia de audio multicanales utilizando la MCU 46 de la invención.
[0081] Como se mencionó previamente, el concepto de la invención no se restringe a la codificación JSC teniendo un canal de referencia fijo predeterminado. En consecuencia, en un ejemplo alternativo, la proporción de energía puede computarizarse con respecto a un canal de referencia, que es variable con el tiempo, siendo el canal de referencia uno que tiene la mayor energía dentro de un intervalo de tiempo predeterminado.
[0082] En lugar de normalizar los valores de energía de la señal en forma de banda con la energía de la banda correspondiente de un canal (objeto) de referencia fijo y de transponer el resultado al dominio logarítmico (dB) como se señala en la Ecuación 1, la normalización puede tener lugar en relación a la máxima energía sobre todos los objetos en una cierta banda de frecuencia:
{ 2 }
E{S ().
n
()= i ,i =1...M Ecuación 4
pnormi n max { 2 }
�E{S ().�
n
ii
[0083] Estos valores de energía normalizados (que se proporcionan en una representación lineal) no necesitan ninguna limitación adicional para un cierto límite superior, dado que de manera innata pueden tomar solo los valores entre 0 y 1.
Esta ventaja supera la desventaja de tener que transmitir un parámetro adicional para el canal de referencia no conocido ya a priori.
[0084] El proceso de mezclado para este escenario incluiría las siguientes etapas (que de nuevo tienen que llevarse a cabo para cada sub-banda por separado):
Tenemos una corriente A con su señal de sub-mezcla sA y los parámetros (valores de energía normalizados,
Ecuación 3, Ecuación 1) para los objetos U a1...aU.
La corriente B consiste de la señal de sub-mezcla sB y los parámetros para los objetos V b1...bV.
[0085] Una señal de sub-mezcla combinada puede formarse de acuerdo con una de las opciones ya mostradas:
sY =gAsA gBsB
[0086] Todos los valores de energía normalizados para la representación combinada yi tienen que ajustarse en relación con el objeto con la energía más alta de todos los objetos de la señal Y. No existen dos candidatos para ser este “objeto máximo” de Y, tanto el objeto máximo de A como el objeto máximo de B, pueden identificarse teniendo una proporción de energía normalizada de “1”. [0087] Esta decisión puede efectuarse comparando la energía absoluta de ambos candidatos. De nuevo puede utilizarse la relación para la energía de las señales de sub-mezcla (Ecuación 2) para obtener:
{ 2 }{ 2 }
E{S ()n . E{S ().
n
{ 2 } A { 2 } B
E{S () = yE{S ()n .=
n .
AUB V
max max
ii
L a L b
i =1i =1
[0088] Ahora, podemos comparar las energías máximas de objeto ponderadas con los factores de ganancia del proceso de sub-mezcla:
2 { 2 } 2 { 2 }
()n .>g ES ().?
gE{S {n
AA BB
max max
[0089] Cualquiera que sea la energía más alta del objeto, este objeto servirá como “objeto máximo” para los parámetros combinados yi. [0090] Como un ejemplo, sea a2 el objeto de energía máxima total amax de ambas señales A y B, entonces todos los otros parámetros pueden combinarse como:
Y1 = a1 Y2 = a2 ... yU = aU
yU+1 =
2 { 2 }
gE{S ()n .
BB max b1 • ,2 { 2 }
gA E{S ()n .Amax
(proporción de energía del primer objeto de la señal B con respecto al “objeto máximo”, aquí a2)
2 { 2 }
gE{S ().
n
B B max
YU+2=b2 •• ,
2 { 2 }
{ 2 }
g 2 E{S ().
n
B
B max
YU+V =bV •• , 2 { 2 }
gE{S ().
nAAmax
[0091] Para este ejemplo, todos los parámetros para los objetos A pueden permanecer sin cambio, dado que la señal A contuvo el objeto máximo total.
[0092] También en esta representación, la inserción de un objeto monofónico puede efectuarse por consiguiente, e.g., asumiendo que V = 1.
[0093] Generalmente, el proceso de transcodificación se lleva a cabo de tal manera que su resultado logra el resultado que se habría obtenido si todos los objetos originales para ambas corrientes se hubieran codificado en una sola corriente JSC en primer lugar.
[0094] La Figura 7 muestra un ejemplo para un generador de señal de audio de la invención para generar una señal de salida de audio, como puede utilizarse dentro de la MCU 46 para implementar el concepto de la invención.
[0095] El generador de señal de audio 100 comprende un receptor de señal de audio 102, un combinador de canales 104, un calculador de parámetro 106 y una interfaz de salida 108.
[0096] El receptor de señal de audio 103 recibe una primera señal de audio 110 que comprende un primer canal de submezcla 110a que tiene información sobre dos o más de los primeros canales originales y que comprende un parámetro original 110b asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia. El receptor de señal de audio 102 recibe además una segunda señal de audio 112 que comprende un segundo canal de sub-mezcla 112a que tiene información sobre al menos un segundo canal original.
[0097] El receptor de señal de audio da salida al primer canal de sub-mezcla 110a y al segundo canal de sub-mezcla 112a hacia una entrada del combinador de canales 104 y al primer canal de sub-mezcla 110a, el segundo canal de submezcla 112a y el parámetro original 110b al calculador de parámetro 106.
[0098] El combinador de canales 104 deriva un canal de sub-mezcla combinado 114 al combinar el primer canal de submezcla 110a y un segundo canal de sub-mezcla 112b, i.e., al combinar los canales de sub-mezcla directamente sin reconstruir los canales de audio originales subyacentes.
[0099] El calculador de parámetro 106 deriva un primer parámetro combinado 116a que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común y un segundo parámetro combinado 116b que describe la propiedad de otro de los primeros canales originales o del al menos un segundo canal original con respecto al mismo canal de referencia común. Los parámetros combinados primero y segundo se introducen en la interfaz de salida 108, que además recibe el canal de sub-mezcla combinado 114 desde el combinador de canales 104. Finalmente, la interfaz de salida da salida a una señal de salida 120 que comprende el canal de sub-mezcla combinado 114 y los parámetros combinados primero y segundo 116a y 116b.
[0100] La señal de salida de audio se ha derivado, por tanto, sin la reconstrucción total de las señales de audio de entrada y por tanto, sin operaciones computacionalmente costosas.
[0101] Dentro de los párrafos anteriores, se ha mostrado el concepto general de mezclar dos o más señales, cada una basada en un procedimiento paramétrico de JSC. Particularmente, las ecuaciones anteriores muestran cómo aplicar estas técnicas para un caso, en donde la información paramétrica consiste de proporciones de energía relativas. No obstante, esta técnica no se restringe a una representación específica de los parámetros de objeto. En consecuencia, pueden utilizarse también los parámetros que describen mediciones de amplitud u otras propiedades de los canales de audio individuales, tales como las correlaciones. Las proporciones de energía también pueden computarse con respecto al canal de sub-mezcla combinado, al costo de transmitir un parámetro adicional. Por otra parte, uno se beneficia de este escenario alternativo por la reducida complejidad computacional durante el mezclado de las corrientes de audio, dado que la reconstrucción de la energía del canal de referencia, que no se transmite explícitamente en JSC “genérico”, es obsoleta.
[0102] Además, la invención no se limita a un escenario de tele-conferencia, sino que puede aplicarse cuando se desea la multiplexión de objetos paramétricos en una sola corriente. Este, por ejemplo, puede ser el caso en esquemas de codificación BCC, envolventes espaciales MPEG y otros.
[0103] Como se ha mostrado, el concepto de la invención permite incluso de manera inconsútil incluir estaciones remotas legadas que proporcionan una sola señal monofónica en el escenario en base al objeto. Además de la combinación de diferentes corrientes de objetos, el concepto de la invención muestra también cuantas formas diferentes de representar los datos paramétricos pueden generarse, de manera que sean adecuadas para permitir procesos de combinación computacionalmente eficientes. Como tal, es una característica ventajosa de una sintaxis de corriente de bits parámetrico de la invención expresar las propiedades del objeto de tal manera que dos corrientes puedan combinarse llevando a cabo meramente operaciones simples.
[0104] En consecuencia, el concepto de la invención muestra también cómo crear corrientes de bits apropiadas o formatos de corriente de bits para codificar paramétricamente múltiples canales de audio (objetos de audio), adhiriéndose a los siguientes criterios:
La señal de sub-mezcla combinada se forma simplemente a partir de las señales de sub-mezcla parcial.
La información lateral paramétrica combinada se forma de la combinación de la información lateral paramétrica individual y alguna simple para computar las características de las señales de sub-mezcla (e.g., energía).
En ningún caso tiene que efectuarse una operación compleja tal como una etapa de decodificación/codificación para los objetos de audio.
[0105] En consecuencia, la representación paramétrica que describe los objetos debe seleccionarse de tal manera que una combinación (“adición”) de dos o más corrientes de objeto sea posible utilizando solamente campos de corriente de bits que se encuentren disponibles como parte de la información lateral paramétrica, y posiblemente simples para computar las métricas de las señales de sub-mezcla (e.g., energía, valor pico).
[0106] Un ejemplo para tal representación podría ser utilizar valores de energía normalizados (Ecuación 4) para cada objeto. Éstos podrían transformarse en una representación logarítmica (dB) y después cuantificarse a cierto número de etapas de cuantificador o a sus índices de cuantificador representativos. La sintaxis de corriente de bits debe permitir el incremento fácil (o disminución) del número de parámetros de objeto en una corriente, e.g., simplemente concatenando, insertando o retirando los parámetros.
[0107] Resumiendo, el concepto de la invención permite una combinación más flexible y computacionalmente eficiente de las corrientes de audio paramétricamente codificadas. Debido a la alta eficiencia computacional, el concepto de la invención no se restringe a un número máximo de canales a combinar. Principalmente, los canales, que pueden combinarse en tiempo real, pueden proporcionarse a un generador de señal de audio de la invención en números arbitrarios. También, la representación paramétrica precisa (JSC) utilizada para ilustrar el concepto de la invención no es obligatoria. Además, como ya se mencionó, otros esquemas de codificación paramétrica, tales como los esquemas envolventes comúnmente conocidos, pueden ser la base para la aplicación del concepto de la invención.
[0108] Además, las computaciones necesarias no necesariamente tienen que aplicarse en software. Las implementaciones de hardware utilizando, por ejemplo, DSPs, ASICs y otros circuitos integrados, también pueden utilizarse para llevar a cabo los cálculos, que incrementarán aún más la velocidad del concepto de la invención, permitiendo la aplicación del concepto de la invención en escenarios en tiempo real.
[0109] Debido a la flexibilidad del concepto de la invención, las corrientes de audio de la invención pueden basarse en diferentes representaciones paramétricas. Los parámetros que van a transmitirse podrían, por ejemplo, ser también mediciones de amplitud, diferencias de tiempo entre los canales de audio originales, mediciones de coherencia y otros.
[0110] Por tanto, se ha mostrado el concepto general de mezclar dos o más señales que se basan cada una en un procedimiento paramétrico tipo JSC.
[0111] Las ecuaciones anteriores muestran cómo aplicar esta técnica para un caso, en donde la información paramétrica consiste de proporciones de energía relativas. No obstante, esta técnica no se restringe a una representación específica de los parámetros de objeto.
[0112] Además, la invención no se limita a un escenario de tele-conferencia, sino que puede aplicarse en cualquier caso en donde sea ventajosa la multiplexión de objetos paramétricos en una sola corriente JSC.
[0113] Además, esta técnica permite de manera inconsútil incluir estaciones remotas legadas que proporcionan una sola señal monofónica en el escenario en base al objeto.
[0114] Además del proceso real para combinar diferentes corrientes de objeto, la invención muestra también cuántas formas diferentes de representar los datos paramétricos son adecuadas para permitir este proceso de combinación. Dado que no todas las posibles representaciones paramétricas permiten tal proceso de combinación descrito sin la decodificación/recodificación total de los objetos, es una característica ventajosa de la sintaxis de corriente de bits paramétrica expresar las propiedades del objeto de tal manera que puedan combinarse dos corrientes llevando a cabo meramente operaciones simples.
[0115] Dependiendo de ciertos requerimientos de implementación de los procedimientos de la invención, los procedimientos de la invención pueden implementarse en hardware o software. La implementación puede llevarse a 5 cabo utilizando un medio de almacenamiento digital, en particular, un disco, DVD o un CD que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan con un sistema computarizado programable de tal manera que se llevan a cabo los procedimientos de la invención. Generalmente, la presente invención es, en consecuencia, un producto de programa de computadora con un código de programa almacenado en un vehículo legible en máquina, siendo el código del programa operativo para llevar a cabo los procedimientos de la invención, cuando el
10 producto de programa de computadora corre en una computadora. En otras palabras, los procedimientos de la invención, en consecuencia, son un programa de computadora que tiene un código de programa para llevar a cabo al menos uno de los procedimientos de la invención cuando el programa de computadora corre en una computadora.
[0116] Aunque lo anterior se ha mostrado particularmente y se ha descrito con referencia a realizaciones particulares del mismo, se entenderá por los expertos en la técnica, que otros varios cambios en forma y detalles, pueden efectuarse
15 sin apartarse del alcance de las mismas. Se entenderá que pueden efectuarse varios cambios para adaptarse a diferentes realizaciones sin apartarse de los más amplios conceptos descritos en la presente y comprendidos por las reivindicaciones siguientes.

Claims (13)

  1. REIVINDICACIONES
    1. Un generador de señal de audio (100) para generar una señal de salida de audio, que comprende:
    un receptor (102) de señal de audio para recibir:
    una primera señal de audio (100) que comprende un primer canal de sub-mezcla (110a) que tiene información sobre dos o más primeros canales originales y que comprende al menos un parámetro original (110b) asociado con uno de los primeros canales originales que describe una relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia; y
    una segunda señal de audio (112) que comprende un segundo canal de sub-mezcla (112a) que tiene información sobre al menos un segundo canal original;
    un combinador de canales (104) para derivar un canal de sub-mezcla combinado (114), al combinar el primer canal de sub-mezcla (110a) y el segundo canal de sub-mezcla (112a);
    un calculador de parámetro (106) para derivar, empleando la energía E{SA2(n)} primer canal de sub-mezcla (110a) y la energía E{SB2(n)} del al menos un parámetro original (110b), o como alternativa una relación de potencia con respecto a un canal de referencia común, siendo el canal de referencia común el canal original entre los primeros canales originales y teniendo el al menos un segundo canal original la máxima energía dentro de un determinado intervalo de tiempo predeterminado, un primer parámetro combinado (116a) que describe la relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado (116b) que describe la relación de potencia de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y
    una interfaz de salida para producir la señal de salida de audio (120) que comprende el canal de sub-mezcla combinado (114), y los parámetros combinados (116a, 116b) primero y segundo.
  2. 2. El generador de señal de audio (100) de acuerdo con la reivindicación 1, en el cual el combinador de canales
    (104) es operativo para derivar el canal de sub-mezcla combinado (114) utilizando una combinación lineal del primero 110a) y el segundo canal de sub-mezcla (110b).
  3. 3. El generador de señal de audio (100) de acuerdo con la reivindicación 2, en el cual el combinador de canales
    (104) es operativo para utilizar una combinación lineal que tiene coeficientes que dependen del número U de los primeros canales originales y del número V de los segundos canales originales.
  4. 4. El generador de señal de audio (100) de acuerdo con la reivindicación 3, en el cual el combinador de canales
    (104) es operativo para utilizar una combinación lineal que tiene un coeficiente gA para el primer canal de sub-mezcla (110a), y un coeficiente gB para el segundo canal de sub-mezcla (112a) derivado utilizando una de las siguientes ecuaciones:
    UV
    g = , g =
    A (UV ) B (UV )
    U V
    , g =
    B
    gA = (UV )(UV )
  5. 5. El generador de señal de audio de acuerdo con cualquiera de las reivindicaciones previas, en el cual el calculador de parámetro (106) es operativo para calcular la energía E{SAref} del canal de referencia al derivar la energía E{SA2} del primer canal de sub-mezcla (110a)y los parámetros ai{i = 1,...,n} asociados con canales diferentes al canal de referencia de acuerdo con la ecuación:
    { 2 }
    E{S ()
    {} An .
    ES .= •
    {A
    ref 1 Lai
    i
  6. 6.
    El generador de señal de audio (100) de acuerdo con cualquiera de las reivindicaciones previas, en el cual el calculador de parámetro (106) es operativo para utilizar el canal de referencia como el canal de referencia común y el parámetro original a2 como el primer parámetro combinado yu y para derivar el segundo parámetro combinado yu+1 para el al menos un segundo canal original con respecto al canal de referencia.
  7. 7.
    El generador de señal de audio (100) de acuerdo con cualquiera de las reivindicaciones anteriores, en el cual el calculador de parámetro (106) es operativo para utilizar además los coeficientes gA asociados con el primer canal de sub-mezcla (110a) y gB asociados con el segundo canal de sub-mezcla (112a), utilizándose los coeficientes para la combinación lineal de la primera y segunda sub-mezcla utilizada por el combinador de canales (104).
  8. 8.
    El generador de señal de audio (100) según cualquiera de las reivindicaciones anteriores, en el cual el calculador de parámetro (106) es operativo para calcular el segundo parámetro combinado yU+1 para el al menos un segundo canal original de acuerdo con la siguiente ecuación:
    2 { 2 }
    gE{S (). BB1 n
    yU+1 = • , 2 { 2 }
    gE{S ()n . AA1
    en donde E{sA2(n)} es la energía del canal de referencia derivada utilizando la energía del primer canal de sub-mezcla
    E{sA2(n)} de acuerdo con la siguiente fórmula:
    { 2 }
    E{S ().
    n
    { 2 } A
    {().= ,
    ES n
    A1 (1 a2 )
    en donde a2 es el parámetro original que relaciona un primer canal original con el canal de referencia.
  9. 9.
    El generador de señal de audio (100) de acuerdo con cualquiera de las reivindicaciones previas, en el cual el calculador de parámetro (106) es operativo para procesar las porciones de frecuencia del primero y el segundo canales de sub-mezcla asociados con intervalos de frecuencia separados de tal manera que los parámetros combinados se derivan para cada intervalo de frecuencia separado.
  10. 10.
    Un procedimiento para generar una señal de salida de audio, comprendiendo el procedimiento:
    recibir una primera señal de audio (110) que comprende un primer canal de sub-mezcla (110a) que tiene información sobre dos o más primeros canales originales y que comprende al menos un parámetro original (110b) asociado con uno de los primeros canales originales que describe una relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal de audio (112) que comprende un segundo canal de sub-mezcla (112a) que tiene información sobre al menos un segundo canal original;
    derivar un canal de sub-mezcla combinado (114) al combinar el primer canal de sub-mezcla (110) y el segundo canal de sub-mezcla (112);
    derivar, empleando la energía E{SA2(n)} del primer canal de sub-mezcla (110a) y la energía E{SB2(n)} del segundo canal de sub-mezcla (112b) y el al menos un parámetro original (110b), o como alternativa una relación de potencia con respecto a un canal de referencia común, siendo el canal de referencia común el canal original entre los primeros canales originales y teniendo el al menos un segundo canal original la máxima energía dentro de un determinado intervalo de tiempo predeterminado, un primer parámetro combinado (116a) que describe la relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado (116b) que describe la relación de potencia de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y
    producir la señal de salida de audio (120) que comprende el canal de sub-mezcla combinado (114), y los parámetros combinados (116a, 116b) primero y segundo.
  11. 11. Una corriente de datos de una representación de tres o más canales de audio (120), que comprende:
    un canal de sub-mezcla combinado (114) que es una combinación de un primer canal de sub-mezcla que tiene información sobre al menos dos primeros canales originales y un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original;
    un primer parámetro (116a) que depende de la energía E{SA2(n)} del primer canal de sub-mezcla (110a) y la energía E{SB2(n)} del segundo canal de sub-mezcla (112b) que describe una relación de potencia de uno de los al menos dos primeros canales originales con respecto a un canal de referencia y que depende de al menos un parámetro original (110b) asociado con uno de los primeros canales que describen una relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia; y un segundo parámetro (116b) que depende de la energía E{SA2(n)} del primer canal de sub-mezcla (110a) y la energía E{SB2(n)} del segundo canal de sub-mezcla (112b) que describe la relación de potencia de otro canal de los primeros canales originales o la relación de potencia del al menos un segundo canal original con respecto al canal de referencia.
  12. 12.
    Sistema de conferencia que comprende un generador de señal de audio (100) para generar una señal de salida de audio de acuerdo con la reivindicación 1.
  13. 13.
    Un programa de computadora para implementar, al ejecutarse en una computadora, un procedimiento para generar una señal de salida de audio, comprendiendo el procedimiento:
    recibir una primera señal de audio que comprende un primer canal de sub-mezcla que tiene información sobre dos o más primeros canales originales y que comprende al menos un parámetro original asociado con uno de los primeros canales originales que describe una relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia y una segunda señal de audio que comprende un segundo canal de sub-mezcla que tiene información sobre al menos un segundo canal original;
    derivar un canal de sub-mezcla combinado al combinar el primer canal de sub-mezcla y el segundo canal de submezcla;
    derivar, empleando la energía E{SA2(n)} del primer canal de sub-mezcla (110a) y la energía E{SB2(n)} del segundo canal de sub-mezcla (112b) y el al menos un parámetro original (110b), o como alternativa una relación de potencia con respecto a un canal de referencia común, siendo el canal de referencia común el canal original entre los primeros canales originales y teniendo el al menos un segundo canal original la máxima energía dentro de un determinado intervalo de tiempo predeterminado, un primer parámetro combinado que describe la relación de potencia de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro combinado que describe la relación de potencia de otro de los primeros canales originales o del al menos un segundo canal original con respecto al canal de referencia común; y
    producir la señal de salida de audio que comprende el canal de sub-mezcla combinado, y los parámetros combinados primero y segundo.
    FIG. 4
ES09010510T 2006-07-07 2007-04-24 Aparato para combinar múltiples fuentes de audio paramétricamente codificadas Active ES2396072T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US81941906P 2006-07-07 2006-07-07
US819419P 2006-07-07
US11/739,544 US8139775B2 (en) 2006-07-07 2007-04-24 Concept for combining multiple parametrically coded audio sources
US739544 2007-04-24

Publications (1)

Publication Number Publication Date
ES2396072T3 true ES2396072T3 (es) 2013-02-19

Family

ID=38191359

Family Applications (2)

Application Number Title Priority Date Filing Date
ES09010510T Active ES2396072T3 (es) 2006-07-07 2007-04-24 Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
ES07724528T Active ES2380059T3 (es) 2006-07-07 2007-04-24 Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES07724528T Active ES2380059T3 (es) 2006-07-07 2007-04-24 Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente

Country Status (18)

Country Link
US (1) US8139775B2 (es)
EP (2) EP2038878B1 (es)
JP (1) JP5134623B2 (es)
KR (1) KR101056325B1 (es)
AR (1) AR061241A1 (es)
AT (1) ATE542216T1 (es)
AU (2) AU2007271532B2 (es)
BR (1) BRPI0713236B1 (es)
CA (1) CA2656867C (es)
ES (2) ES2396072T3 (es)
HK (1) HK1124424A1 (es)
IL (1) IL196217A (es)
MX (1) MX2009000086A (es)
NO (2) NO341259B1 (es)
PL (2) PL2038878T3 (es)
RU (1) RU2407227C2 (es)
TW (1) TWI336881B (es)
WO (1) WO2008003362A1 (es)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007089131A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
ES2335246T3 (es) * 2006-03-13 2010-03-23 France Telecom Sintesis y especializacion sonora conjunta.
WO2008026754A1 (fr) * 2006-08-30 2008-03-06 Nec Corporation Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme
BRPI0710923A2 (pt) 2006-09-29 2011-05-31 Lg Electronics Inc métodos e aparelhagens para codificação e decodificação de sinais de áudio orientados a objeto
EP2372701B1 (en) * 2006-10-16 2013-12-11 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
US8265941B2 (en) 2006-12-07 2012-09-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
EP2122612B1 (en) 2006-12-07 2018-08-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
WO2008100067A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
BRPI0802614A2 (pt) 2007-02-14 2011-08-30 Lg Electronics Inc métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto
JP5282906B2 (ja) * 2007-06-27 2013-09-04 日本電気株式会社 多地点接続装置、信号分析及び装置と、その方法及びプログラム
BRPI0806228A8 (pt) * 2007-10-16 2016-11-29 Panasonic Ip Man Co Ltd Dispositivo de sintetização de fluxo, unidade de decodificação e método
CN102789782B (zh) * 2008-03-04 2015-10-14 弗劳恩霍夫应用研究促进协会 对输入数据流进行混合以及从中产生输出数据流
WO2009131066A1 (ja) * 2008-04-21 2009-10-29 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
RU2495503C2 (ru) * 2008-07-29 2013-10-10 Панасоник Корпорэйшн Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8504184B2 (en) * 2009-02-04 2013-08-06 Panasonic Corporation Combination device, telecommunication system, and combining method
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
FR2944403B1 (fr) * 2009-04-10 2017-02-03 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5793675B2 (ja) 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 符号化装置および復号装置
CA2781310C (en) * 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
US8437480B2 (en) * 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102222503B (zh) 2010-04-14 2013-08-28 华为终端有限公司 一种音频信号的混音处理方法、装置及系统
FR2966277B1 (fr) * 2010-10-13 2017-03-31 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe numerique audio, procede et dispositif de separation de signaux, et signal correspondant
US8809663B2 (en) * 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
US9589550B2 (en) * 2011-09-30 2017-03-07 Harman International Industries, Inc. Methods and systems for measuring and reporting an energy level of a sound component within a sound mix
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
WO2013064957A1 (en) * 2011-11-01 2013-05-10 Koninklijke Philips Electronics N.V. Audio object encoding and decoding
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
KR101970589B1 (ko) * 2011-11-28 2019-04-19 삼성전자주식회사 음성 신호 송신 장치, 음성 신호 수신 장치 및 그 방법
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
WO2014023477A1 (en) * 2012-08-10 2014-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for adapting audio information in spatial audio object coding
WO2014035864A1 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9093064B2 (en) 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2973551B1 (en) * 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
JP6396452B2 (ja) 2013-10-21 2018-09-26 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419645B (en) 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20050062843A1 (en) 2003-09-22 2005-03-24 Bowers Richard D. Client-side audio mixing for conferencing
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
WO2005093717A1 (en) * 2004-03-12 2005-10-06 Nokia Corporation Synthesizing a mono audio signal based on an encoded miltichannel audio signal
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
MXPA06012617A (es) 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con diferentes longitudes de cuadro de codificacion.
KR101147187B1 (ko) * 2004-07-14 2012-07-09 돌비 인터네셔널 에이비 방법, 디바이스, 인코더 장치, 디코더 장치 및 오디오 시스템
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
DE602005017302D1 (de) * 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Also Published As

Publication number Publication date
JP5134623B2 (ja) 2013-01-30
NO341259B1 (no) 2017-09-25
RU2407227C2 (ru) 2010-12-20
RU2009104047A (ru) 2010-08-20
PL2038878T3 (pl) 2012-06-29
IL196217A (en) 2013-06-27
ES2380059T3 (es) 2012-05-08
HK1124424A1 (en) 2009-07-10
AU2011200669A1 (en) 2011-03-10
US8139775B2 (en) 2012-03-20
EP2038878B1 (en) 2012-01-18
AU2007271532A1 (en) 2008-01-10
IL196217A0 (en) 2009-09-22
BRPI0713236A2 (pt) 2013-04-02
AR061241A1 (es) 2008-08-13
AU2007271532B2 (en) 2011-03-17
US20080008323A1 (en) 2008-01-10
MX2009000086A (es) 2009-01-23
KR101056325B1 (ko) 2011-08-11
NO20090515L (no) 2009-02-02
AU2011200669B2 (en) 2012-06-28
EP2112652B1 (en) 2012-11-07
JP2009543142A (ja) 2009-12-03
WO2008003362A1 (en) 2008-01-10
BRPI0713236B1 (pt) 2020-03-10
KR20090025332A (ko) 2009-03-10
CA2656867C (en) 2013-01-08
TW200818122A (en) 2008-04-16
CA2656867A1 (en) 2008-01-10
ATE542216T1 (de) 2012-02-15
EP2112652A1 (en) 2009-10-28
PL2112652T3 (pl) 2013-04-30
NO343321B1 (no) 2019-01-28
EP2038878A1 (en) 2009-03-25
TWI336881B (en) 2011-02-01
NO20170534A1 (no) 2009-02-02

Similar Documents

Publication Publication Date Title
ES2396072T3 (es) Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
AU2008215230B2 (en) Methods and apparatuses for encoding and decoding object-based audio signals
CN101506875B (zh) 用于组合多个参数编码的音频源的设备和方法
Cheng et al. A general compression approach to multi-channel three-dimensional audio