ES2654792T3 - Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal - Google Patents
Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal Download PDFInfo
- Publication number
- ES2654792T3 ES2654792T3 ES13745103.5T ES13745103T ES2654792T3 ES 2654792 T3 ES2654792 T3 ES 2654792T3 ES 13745103 T ES13745103 T ES 13745103T ES 2654792 T3 ES2654792 T3 ES 2654792T3
- Authority
- ES
- Spain
- Prior art keywords
- channels
- channel
- downstream
- processing units
- depending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000012545 processing Methods 0.000 claims abstract description 160
- 238000009877 rendering Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 description 77
- 230000003595 spectral effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- YYAVXASAKUOZJJ-UHFFFAOYSA-N 4-(4-butylcyclohexyl)benzonitrile Chemical compound C1CC(CCCC)CCC1C1=CC=C(C#N)C=C1 YYAVXASAKUOZJJ-UHFFFAOYSA-N 0.000 description 2
- BBHJTCADCKZYSO-UHFFFAOYSA-N 4-(4-ethylcyclohexyl)benzonitrile Chemical compound C1CC(CC)CCC1C1=CC=C(C#N)C=C1 BBHJTCADCKZYSO-UHFFFAOYSA-N 0.000 description 2
- 208000003381 Pontocerebellar hypoplasia type 1 Diseases 0.000 description 2
- 208000037507 Pontocerebellar hypoplasia type 11 Diseases 0.000 description 2
- 208000003369 Pontocerebellar hypoplasia type 2 Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 208000003383 pontocerebellar hypoplasia type 3 Diseases 0.000 description 2
- 201000003034 pontocerebellar hypoplasia type 4 Diseases 0.000 description 2
- 208000033164 type 11 pontocerebellar hypoplasia Diseases 0.000 description 2
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 1
- -1 ISS2 Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 1
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 1
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente, en el que la señal de mezcla descendente codifica tres o más señales de objeto de audio, en la que el decodificador comprende: un enrutador de canal de entrada (110) para recibir los tres o más canales de mezcla descendente y para recibir información lateral y al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) para generar al menos dos canales procesados para obtener el uno o más canales de salida de audio, en el que el enrutador de canal de entrada (110) está configurado para alimentar cada uno de al menos dos de los tres o más canales de mezcla descendente en al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126), de tal manera que cada una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) recibe el uno o más de los tres o más canales de mezcla descendente y de tal manera que cada una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) recibe menos del número total de los tres o más canales de mezcla descendente, en el que cada unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para generar uno o más de los al menos dos canales procesados dependiendo de la información lateral y dependiendo de dicho uno o más de los al menos dos de los tres o más canales de mezcla descendente recibidos por la unidad de procesamiento de canal del enrutador de canal de entrada (110), en el que el decodificador comprende además un enrutador de canal de salida (130), en el que el enrutador de canal de salida (130) está configurado para combinar los al menos dos canales procesados para obtener una estimación de las señales objeto de audio, en el que el decodificador comprende además un renderizador (140), en el que el renderizador (140) está configurado para recibir información de renderización y está configurado para generar el uno o más canales de salida de audio, dependiendo de la estimación de las señales objeto de audio y dependiendo de la información de renderización, en el que el enrutador de canal de entrada (110) está configurado para no alimentar al menos uno de los tres o más canales de mezcla descendente a cualquiera de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126), de tal manera que dicho al menos uno de los tres o más canales de mezcla descendente no es recibido por cualquiera de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126).
Description
DESCRIPCIÓN
Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal 5
[0001] La presente invención se refiere a un decodificador y un procedimiento para codificación de objeto de
audio espacial de multi-instancias (M-SAOC) que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal.
10 [0002] En los sistemas de audio digital modernos, hay una tendencia principal para permitir modificaciones
relacionadas con el objeto de audio del contenido transmitido en el lado del receptor. Estas modificaciones incluyen modificaciones de ganancia de partes seleccionadas de la señal de audio y/o reposicionamiento espacial de objetos de audio dedicados en caso de reproducción de multi-canal vía altavoces distribuidos espacialmente. Esto puede ser obtenido al suministrar individualmente diferentes partes del contenido de audio a los diferentes altavoces.
15
[0003] En otras palabras, en la técnica de procesamiento de audio, transmisión de audio y almacenamiento
de audio, existe un deseo incrementado de permitir la interacción del usuario en la reproducción del contenido de audio orientada al objeto y también la demanda de utilizar las posibilidades extendidas de reproducción de multicanal para presentar individualmente contenido de audio o partes del mismo con el fin de mejorar la impresión 20 de audición. Mediante esto, el uso del contenido de audio de multi-canal conlleva mejoras significativas para el usuario. Por ejemplo, se puede obtener una impresión de audición tridimensional, lo que efectúa una satisfacción mejorada del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio de multi-canal es útil también en entornos profesionales, por ejemplo, en aplicaciones de conferencia telefónica, debido a que la inteligibilidad del usuario puede ser mejorada al usar una reproducción de audio de multi-canal. Otra aplicación 25 posible es ofrecer al oyente una pieza musical para ajustar individualmente el nivel de reproducción y/o posición espacial de diferentes partes (también denominadas como “objetos de audio”) o pistas, tales como una parte vocal o diferentes instrumentos. El usuario puede efectuar tal ajuste por razones de gusto personal, para una transcripción más fácil de una o más partes de la pieza musical, propósitos educacionales, karaoke, ensayo, etc.
30 [0004] La transmisión discreta directa de todo el contenido de audio de multi-canal o multi-objeto digital, por
ejemplo en forma de datos de modulación de código de pulso (PCM) o incluso formatos de audio comprimidos, demanda velocidades de bits muy altas. Sin embargo, también es deseable transmitir y almacenar datos de audio de manera eficaz en velocidad de bits. Por consiguiente, se desea aceptar una solución intermedia razonable entre requisitos de calidad de audio y velocidad de bits con el fin de evitar una carga de recursos excesiva mediante 35 aplicaciones de multi-canal/multi-objetos.
[0005] Recientemente, en el campo de codificación de audio, se han introducido técnicas paramétricas para la transmisión/almacenamiento eficaz en velocidad de bits de señales de audio de multi-canal/multi-objeto mediante, por ejemplo, el grupo de expertos en películas (MPEG) y otros. Un ejemplo es MPEG envolvente (MPS) como una
40 estrategia orientada al canal [MPS, BCC] o codificación de objeto de audio especial de MPEG (SAOC) como una estrategia orientada al objeto [JSC, SAOC, SAOC1, SAOC2]. Otra estrategia orientada al objeto se denomina como “separación de fuente informada” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas tienen como objetivo reconstruir una escena de audio de salida deseada o un objeto de fuente de audio deseada en base a una mezcla descendente de canales/objetos e información lateral adicional que describe la escena de audio 45 transmitida/almacenada y/o los objetos de fuente de audio en la escena de audio. El documento US 2011/0038423 A1 describe una estrategia de codificación de audio multi-canal mediante el uso de una pluralidad de señales de mezcla descendente. La estimación y la aplicación de información lateral relacionada con el canal/objeto en tales sistemas se hacen de una manera selectiva en tiempo-frecuencia. Por consiguiente, tales sistemas emplean transformadas de tiempo-frecuencia tales como la transformada de Fourier discreta (DFT), la transformada de 50 Fourier de tiempo corto (STFT) o bancos de filtros como bancos de filtros de espejo en cuadratura (QMF), etc. El principio básico de tales sistemas es ilustrado en la figura 2, mediante el uso del ejemplo de SAOC de MPEG.
[0006] En el caso de STFT, la dimensión temporal es representada por el número de tiempo-bloque y la
dimensión espectral es capturada por el número de coeficiente espectral (“bin”). En el caso de QMF, la dimensión
55 temporal es representada por el número de tiempo-ranura y la dimensión espectral es capturada por el número de sub-banda. Si la resolución espectral de QMF es mejorada por la aplicación subsecuente de una segunda etapa de filtro, todo el banco de filtros es denominado QMF híbrido y las sub-bandas de resolución fina son denominadas subbandas híbridas.
[0007] Como ya se mencionó anteriormente, en SAOC el procesamiento general se lleva a cabo de manera selectiva en tiempo-frecuencia y puede ser descrito del siguiente modo dentro de cada banda de frecuencia, como se ilustra en la figura 2:
5 - N señales de objeto de audio si ... sN son mezcladas de manera descendente a P canales x1 ... xP como parte del procesamiento del codificador mediante el uso de una matriz de mezcla descendente que consta de los elementos di,1 ... dN,P. Además, el codificador extrae información lateral que describe las características de los objetos de audio de entrada (módulo estimador de información lateral (SIE)). Para SAOC de MPEG, las relaciones de las potencias de objeto w.r.t. entre sí son la forma más básica de tal información lateral 10 - la(s) señal(es) de mezcla descendente e información lateral son transmitidas/almacenadas. Para este fin, la(s) señal(es) de audio de mezcla descendente puede(n) ser comprimida(s), por ejemplo, usando codificadores de audio perceptual bien conocidos, tales como MPEG-1/2 capa II o III (también conocidas como .mp3), codificación de audio avanzada de MPEG-2/4 (AAC), etc.
- en el extremo de recepción, el decodificador trata conceptualmente de restaurar las señales de objeto originales 15 (“separación del objeto”) de las señales de mezcla descendente (descodificadas) mediante el uso de la información lateral transmitida. Estas señales de objeto aproximadas S1 ... SN son mezcladas a continuación en una escena objetivo representada por M canales de salida de audio y1 ... yM mediante el uso de una matriz de renderización descrita por los coeficientes r1,1 ... rN,M en la figura 2. La escena objetivo deseada puede ser en el caso extremo, la renderización solo de una señal fuente fuera de la mezcla (escenario de separación de fuente), pero también 20 cualquier otra escena acústica arbitraria que conste de los objetos transmitidos. Por ejemplo, la salida puede ser de un solo canal, estéreo de 2 canales o escena objetivo de multicanal 5.1.
[0008] El ancho de banda/almacenamiento en aumento disponible y mejoras en marcha en el campo de codificación de audio permite al usuario seleccionar de una elección altamente incrementada de producciones de
25 audio de multicanal. Los formatos de audio 5.1 de multicanal ya son estándar en producciones de DVD y Blue-Ray. Los nuevos formatos de audio como audio MPEG-H 3D con incluso más canales de transporte de audio aparecen en el horizonte, que proporcionarán a los usuarios finales una experiencia de audio altamente inmersiva.
[0009] Los esquemas de codificación de objeto de audio paramétricos están actualmente restringidos a un 30 máximo de dos canales de mezcla descendente. Pueden ser aplicados únicamente a alguna extensión en mezclas
de multicanal, por ejemplo en solo dos canales de mezcla descendente seleccionados. La flexibilidad que estos esquemas de codificación ofrecen al usuario para ajustar la escena de audio a sus propias preferencias es así severamente limitada, por ejemplo, con respecto a cambiar el nivel de audio del comentarista deportivo y la atmósfera en la difusión de deportes.
35
[0010] Además, los esquemas de codificación de objeto de audio actuales ofrecen solamente variabilidad limitada en el proceso de mezcla en el lado del codificador. El proceso de mezcla es limitado a mezcla variable en el tiempo de los objetos de audio y la mezcla variante en frecuencia no es posible.
40 [0011] Por consiguiente, sería altamente apreciado si se proporcionaran conceptos mejorados para
codificación de objeto de audio.
[0012] El objeto de la presente invención es proporcionar conceptos mejorados para la codificación de objeto de audio. El objeto de la presente invención es resuelto por un decodificador según la reivindicación 1, mediante un
45 procedimiento según la reivindicación 10 y mediante un programa informático según la reivindicación 11.
[0013] Se proporciona un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente, en los que la señal de mezcla descendente codifica tres o más señales de objeto de audio.
50
[0014] El decodificador comprende un enrutador de canal de entrada para recibir los tres o más canales de mezcla descendente y para recibir información lateral y al menos dos unidades de procesamiento de canal para generar al menos dos canales procesados para obtener el uno o más canales de salida de audio.
55 [0015] El enrutador de canal de entrada está configurado para alimentar cada uno de al menos dos de los
tres o más canales de mezcla descendente al menos a una de las al menos dos unidades de procesamiento de canal, de tal manera que cada una de las al menos dos unidades de procesamiento de canal recibe uno o más de los tres o más canales de mezcla descendente y de tal manera que cada una de las al menos dos unidades de procesamiento de canal recibe menos del número total de los tres o más canales de mezcla descendente.
[0016] Cada unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal está configurada para generar uno o más de los al menos dos canales procesados, dependiendo de la información lateral y dependiendo del uno o más de los al menos dos de los tres o más canales de mezcla descendente
5 recibidos por la unidad de procesamiento de canal del enrutador de canal de entrada.
[0017] Más flexibilidad en el proceso de mezcla permite un aprovechamiento óptimo de las características del objeto de señal. Se puede producir una mezcla descendente que es optimizada para la separación paramétrica en el lado del decodificador con respecto a la calidad percibida.
10
[0018] Las realizaciones se extienden a la parte paramétrica del esquema de SAOC a un número arbitrario de canales de mezcla descendente/mezcla ascendente. El procedimiento de la invención permite además la mezcla plenamente flexible de los objetos de audio.
15 [0019] Según una realización, el enrutador de canal de entrada puede estar configurado para alimentar cada
uno de los al menos dos de los tres o más canales de mezcla descendente a exactamente una de las al menos dos unidades de procesamiento de canal.
[0020] En una realización, el enrutador de canal de entrada puede estar configurado para alimentar cada uno 20 de los tres o más canales de mezcla descendente al menos a una de las al menos dos unidades de procesamiento
de canal, de tal manera que cada uno de los tres o más canales de mezcla descendente es recibido por una o más de las al menos dos unidades de procesamiento de canal.
[0021] Según una realización, cada una de las al menos dos unidades de procesamiento de canal pueden 25 estar configuradas para generar el uno o más de los al menos dos canales procesados, independiente de al menos
uno de tres o más canales de mezcla descendente.
[0022] En una realización, cada una de las al menos dos unidades de procesamiento de canal pueden ser ya sea una unidad de procesamiento mono o una unidad de procesamiento estéreo, en la que dicha unidad de
30 procesamiento mono puede estar configurada para recibir exactamente uno de los tres o más canales de mezcla descendente y estar configurada para recibir exactamente uno o exactamente dos de los al menos dos canales procesados, dependiendo exactamente de uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral, y en la que la unidad de procesamiento estéreo puede estar configurada para recibir exactamente dos de los tres o más canales de mezcla descendente y estar configurada para generar exactamente 35 uno o exactamente dos de los al menos dos canales procesados, dependiendo exactamente de dos de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0023] Al menos una de las al menos dos unidades de procesamiento de canal pueden estar configuradas para recibir exactamente uno de los tres o más canales de mezcla descendente y estar configuradas para recibir
40 exactamente dos de los al menos dos canales procesados, dependiendo exactamente de uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0024] Según una realización, al menos una de las al menos dos unidades de procesamiento de canal pueden estar configuradas para recibir exactamente dos de los tres o más canales de mezcla descendente y estar
45 configuradas para generar exactamente uno de los al menos dos canales procesados dependiendo de exactamente dos de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0025] En una realización, el enrutador de canal de entrada puede estar configurado para recibir cuatro o más canales de mezcla descendente y al menos una de las al menos dos unidades de procesamiento de canal pueden
50 estar configuradas para recibir al menos tres de los cuatro o más canales de mezcla descendente y pueden estar configuradas para generar al menos tres de los canales procesados, dependiendo de los al menos tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
[0026] Según una realización, al menos una de las al menos dos unidades de procesamiento de canal 55 pueden estar configuradas para recibir exactamente tres de los cuatro o más canales de mezcla descendente y
pueden estar configuradas para generar exactamente tres de los canales procesados dependiendo de dichos exactamente tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
[0027] En una realización, el enrutador de canal de entrada puede estar configurado para recibir seis o más
canales de mezcla descendente y en el que al menos una de las al menos dos unidades de procesamiento de canal pueden estar configuradas para recibir exactamente cinco de los seis o más canales de mezcla descendente y estar configuradas para generar exactamente cinco de los canales procesados dependiendo de dichos exactamente cinco de los seis o más canales de mezcla descendente y dependiendo de la información lateral. Según la invención, el 5 enrutador de canal de entrada está configurado para no alimentar al menos uno de los tres o más canales de mezcla descendente en cualquiera de las al menos dos unidades de procesamiento de canal, de tal manera que el al menos uno de los tres o más canales de mezcla descendente no es recibido por cualquiera de las al menos dos unidades de procesamiento de canal.
10 [0028] Según la invención, el decodificador puede comprender además un enrutador de canal de salida para
combinar los al menos dos canales procesados para obtener el uno o más canales de salida de audio. Según la invención, el decodificador comprende además un renderizador, en el que el renderizador está configurado para recibir información de renderización y en el que el renderizador está configurado para generar el uno o más canales de salida de audio dependiendo de los al menos dos canales procesados y dependiendo de la información de 15 renderización.
[0029] Según la invención, las al menos dos unidades de procesamiento de canal pueden estar configuradas
para generar los al menos dos canales procesados en paralelo.
20 [0030] Según una realización, una primera unidad de procesamiento de canal de las al menos dos unidades
de procesamiento de canal puede estar configurada para alimentar un primer canal procesado de los al menos dos canales procesados a una segunda unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal. Dicha segunda unidad de procesamiento de canal puede estar configurada para generar un segundo canal procesado de los al menos dos canales procesados, dependiendo del primer canal procesado.
25
[0031] Además, se proporciona un procedimiento correspondiente para generar una señal de salida de audio
que comprende uno o más canales de salida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente.
30 [0032] Además, se proporciona un programa informático para la implementación del procedimiento
anteriormente descrito cuando se ejecuta en un equipo o procesador de señal
[0033] En lo sucesivo, se describen realizaciones de la presente invención con más detalle con referencia a las figuras en las que:
35
La figura 1 es un decodificador para generar una señal de salida de audio según una realización,
La figura 2 es una vista general del sistema de SAOC que ilustra el principio de tales sistemas mediante el uso del ejemplo de SAOC de MPEG,
La figura 3 muestra una ilustración esquemática que muestra el principio de combinar múltiples instancias de 40 decodificador/transcodificador mono y estéreo de SAOC en paralelo, para descodificar paramétricamente una mezcla de señales de multicanal según una realización y
La figura 4 muestra un diagrama esquemático que ilustra el principio de una estructura de decodificador/transcodificador mono y estéreo de SAOC en cascada para procesar una mezcla de señales de multicanal según una realización.
45
[0034] Antes de describir realizaciones de la presente invención, se proporcionan más antecedentes en cuanto a los sistemas de SAOC del estado de la técnica.
[0035] La figura 2 muestra una disposición general de un codificador de SAOC 10 y un decodificador de 50 SAOC 12. El codificador de SAOC 10 recibe N objetos de entrada, es decir, señales de audio s1 a sN. En particular,
el codificador 10 comprende un mezclador descendente 16 que recibe las señales de audio s1 a sN y mezcla de manera descendente las mismas a una señal de mezcla descendente 18. Alternativamente, la mezcla descendente puede ser proporcionada externamente (“mezcla descendente artística”) y el sistema estima la información lateral adicional para hacer que la mezcla descendente proporcionada coincida con la mezcla descendente calculada. En la 55 figura 2, se muestra que la señal de mezcla descendente es una señal de canal P. Así, cualquier configuración de señal de mezcla descendente mono (P = 1), estéreo (P = 2) o de multicanal (P > 2) es concebible.
[0036] En el caso de una mezcla descendente estéreo, los canales de la señal de mezcla descendente 18 son denotados L0 y R0, en caso de una mezcla descendente mono los mismos son denotados simplemente como
L0. Con el fin de permitir que el decodificador de SAOC 12 recupere los objetos individuales si a sN, el estimador de información lateral 17 proporciona al decodificador de SAOC 12 información lateral que incluye parámetros de SAOC. Por ejemplo, en el caso de una mezcla descendente estéreo, los parámetros de sAoC comprenden diferencias a nivel de objeto (OLD), correlaciones de inter-objeto (IOC) (parámetros de correlación cruzada de inter- 5 objeto), valores de ganancia de mezcla descendente (DMG) y diferencias a nivel de canal de mezcla descendente (DCLD). La información lateral 20, que incluye los parámetros de SAOC, junto con la señal de mezcla descendente 18, forma el flujo de datos de salida de SAOC recibido por el decodificador de SAOC 12.
[0037] El decodificador de SAOC 12 comprende un mezclador ascendente que recibe la señal de mezcla 10 descendente 18 así como la información lateral 20 con el fin de recuperar y presentar las señales de audio S1 y SN
sobre cualquier conjunto de canales seleccionados por el usuario y1 a yM, con la renderización siendo prescrita por información de renderización 26 introducida en el decodificador SAOC 12.
[0038] Las señales de audio S1 a SN pueden ser introducidas en el codificador 10 en cualquier dominio de 15 codificación, tal como en dominio de tiempo o dominio espectral. En caso de que las señales de audio S1 a SN sean
alimentadas al codificador 10 en el dominio de tiempo, tal como PCM codificadas, el codificador 10 puede usar un banco de filtros, tal como un banco de QMF híbrido, con el fin de transferir las señales a un dominio espectral, en el cual las señales de audio son representadas en varias sub-bandas asociadas con diferentes porciones espectrales, a una resolución de banco de filtros específica. Si las señales de audio S1 a SN ya están en la representación 20 esperada por el codificador 10, el mismo no tiene que efectuar la descomposición espectral.
[0039] La figura 1 ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente según una realización. La señal de mezcla descendente codifica tres o más señales de objeto de
25 audio.
[0040] El decodificador comprende un enrutador de canal de entrada 110 para recibir los tres o más canales de mezcla descendente DMX1, DMX2, DMX3 y para recibir información lateral SI y al menos dos unidades de procesamiento de canal 121, 122 para generar al menos dos canales procesados para obtener el uno o más canales
30 de salida de audio.
[0041] El enrutador de canal de entrada 110 está configurado para alimentar a cada uno de al menos dos de los tres o más canales de mezcla descendente DMX1, DMX2, DMX2 en al menos una de las al menos dos unidades de procesamiento de canal 121, 122, de tal manera que cada una de las al menos dos unidades de procesamiento
35 de canal 121, 122 recibe uno o más de los tres o más canales de mezcla descendente y de tal manera que cada una de las al menos dos unidades de procesamiento de canal 121, 122 recibe menos del número total de los tres o más canales de mezcla descendente DMX1, DMX2, DMX3.
[0042] En particular, en la realización de la figura 1, cada uno de los tres canales de mezcla descendente 40 DMX1, DMX2, DMX2 son alimentados a exactamente una unidad de procesamiento de canal. Sin embargo, según la
invención, no todos de los tres o más canales de mezcla descendente recibidos por el enrutador de canal de entrada 110 pueden ser alimentados a una unidad de procesamiento. Sin embargo, en cualquier caso, cada uno de al menos dos canales de mezcla descendente de los tres o más canales de mezcla descendente será alimentado a al menos una de las unidades de procesamiento de canal.
45
[0043] Cada unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal 121, 122 está configurada para generar uno o más de los al menos dos canales procesados dependiendo de la información lateral SI y dependiendo de dicho uno o más de los al menos dos de los tres o más canales de mezcla descendente (DMX1, DMX2, DMX3) recibidos por la unidad de procesamiento de canal 121, 122, del enrutador de
50 canal de entrada 110.
[0044] En el ejemplo de la figura 1, la unidad de procesamiento de canal 121 recibe dos canales de mezcla descendente (DMX1, DMX2) para generar dos canales procesados (PCH1, PCH2). Así, la unidad de procesamiento 121 puede ser considerada como una unidad de procesamiento estéreo a estéreo.
55
[0045] Además, en el ejemplo de la figura 1, la unidad de procesamiento de canal 122 recibe el canal de mezcla descendente DMX3 para generar dos canales procesados (PCH3, PCH4).
[0046] En el ejemplo de la figura 1, los canales procesados PCH1, PCH2, PCH3, PCH4 son los canales de
salida de audio generados por el decodificador. Sin embargo, en otras realizaciones, los canales de salida de audio son generados dependiendo de los canales procesados, por ejemplo al emplear información de renderización.
[0047] La generación de los canales procesados a partir de los canales de mezcla descendente se hace al 5 emplear información lateral. La información lateral puede comprender por ejemplo información de mezcla
descendente que indica cómo los objetos de audio han sido mezclados descendentemente para obtener los tres o más canales de mezcla descendente. Además, la información lateral puede comprender también información en cuanto a una matriz de covarianza de tamaño N x N, que puede indicar para N objetos de audio o N señales de objeto de audio, que son codificadas, los parámetros de OLD e IOC de estos N objetos de audio.
10
[0048] Una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede por ejemplo ser una unidad de procesamiento mono a mono, que implementa un modo de procesamiento mono a mono “x-1-1”. O una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede por ejemplo estar configurada para implementar un modo de procesamiento mono a estéreo “x-1-2”.
15 O una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede por ejemplo ser configurada para implementar un modo de procesamiento estéreo a mono “x-2-1”. O una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede ser por ejemplo una unidad de procesamiento estéreo a estéreo que implementa un modo de procesamiento estéreo a estéreo “x-2-2”.
20 [0049] El modo de procesamiento mono a mono “x-1-1”, el modo de procesamiento mono a estéreo “x-1-2”, el
modo de procesamiento estéreo a mono “x-2-1” y el modo de procesamiento estéreo a estéreo “x-2-2” son descritos en el estándar SAOC (véase [SAOC]), como modos de decodificación del estándar SAOC.
[0050] En particular, véase por ejemplo: ISO/IEC, “Tecnologías de audio MPEG - Parte 2: Codificación de 25 objeto de audio especial (SAOC)”; ISO/lEC JTC1/SC29/WG11 (MPEG) Estándar Internacional 23003-2:2010, en
particular, véase capítulo “Procesamiento SAOC”, más en particular, véase subcapítulo “Modos de decodificación”.
[0051] En una realización, cada una de las al menos dos unidades de procesamiento de canal 121, 122 puede ser ya sea una unidad de procesamiento mono o una unidad de procesamiento estéreo, en la que la unidad
30 de procesamiento mono está configurada para recibir exactamente uno de los tres o más canales de mezcla descendente y está configurada para recibir exactamente uno o exactamente dos de los al menos dos canales procesados, dependiendo del exactamente uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral y en la que la unidad de procesamiento estéreo está configurada para recibir exactamente dos de los tres o más canales de mezcla descendente y está configurada para generar exactamente uno o exactamente 35 dos de los al menos dos canales procesados, dependiendo exactamente de los dos de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0052] Al menos una de las al menos dos unidades de procesamiento de canal 121, 122 puede estar configurada para recibir exactamente uno de los tres o más canales de mezcla descendente y está configurada para
40 generar exactamente dos de los al menos dos canales procesados, dependiendo exactamente de uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0053] Según una realización, al menos una de las al menos dos unidades de procesamiento de canal 121, 122 puede estar configurada para recibir exactamente dos de los tres o más canales de mezcla descendente y está
45 configurada para generar exactamente uno de los al menos dos canales procesados, dependiendo de exactamente dos de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
[0054] Una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede implementar por ejemplo un modo de procesamiento de mezcla descendente mono (“x-1-5”) para generar
50 cinco canales procesados de un canal de mezcla descendente mono. De otra manera, una unidad de procesamiento de canal de las al menos dos unidades de procesamiento 121, 122 puede por ejemplo implementar un modo de procesamiento de mezcla descendente estéreo (“x-2-5”) para generar cinco canales procesados de dos canales de mezcla descendente.
55 [0055] El modo de procesamiento de mezcla descendente mono (“x-1-5”) y el modo de procesamiento de
mezcla descendente estéreo (“x-2-5”) son descritos en el estándar SAOC (véase [SAOC]), como modos de transcodificación del estándar SAOC.
[0056] En particular, véase por ejemplo: ISO/lEC, “Tecnologías de audio MPEG - Parte 2: Codificación de
objeto de audio especial (SAOC)”, ISO/IEC JTC1/SC29/WG11 (MPEG) Estándar internacional 23003-2:2010, en particular, véase capítulo “Procesamiento SAOC”, más en particular, véase sub-capítulo “Modos de transcodificación”.
5 [0057] Sin embargo, en algunas realizaciones, uno, algunas o todas las unidades de procesamiento de canal
121, 122 pueden ser configuradas diferentemente.
[0058] En una realización, el enrutador de canal de entrada 110 puede estar configurado para recibir cuatro o más canales de mezcla descendente y al menos una de las al menos dos unidades de procesamiento de canal 121,
10 122 puede estar configurada para recibir al menos tres de los cuatro o más canales de mezcla descendente y puede estar configurada para generar al menos tres de los canales procesados dependiendo de dichos al menos tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
[0059] Según una realización, al menos una de las al menos dos unidades de procesamiento de canal 121, 15 122 puede estar configurada para recibir exactamente tres de los cuatro o más canales de mezcla descendente y
puede estar configurada para generar exactamente tres de los canales procesados, dependiendo de dichos exactamente tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
[0060] En una realización, el enrutador de canal de entrada 110 puede estar configurado para recibir seis o
20 más canales de mezcla descendente y en el que al menos una de las al menos dos unidades de procesamiento de
canal 121, 122 puede estar configurada para recibir exactamente cinco de los seis o más canales de mezcla descendente y está configurada para generar exactamente cinco de los canales procesados, dependiendo de dichos exactamente cinco de los seis o más canales de mezcla descendente y dependiendo de la información lateral.
25 [0061] Según una realización, el enrutador de canal de entrada puede estar configurado para alimentar a
cada uno de los al menos dos de los tres o más canales de mezcla descendente a exactamente una de las al menos dos unidades de procesamiento de canal 121, 122. Así, ninguno de los canales de mezcla descendente DMX1, DMX2, DMX3 es alimentado a dos o más de las unidades de procesamiento de canal 121, 122, como en el ejemplo de la figura 1. Sin embargo, en otras realizaciones, uno o más de los canales de mezcla descendente pueden ser 30 alimentados a más de una unidad de procesamiento de canal.
[0062] En una realización, el enrutador de canal de entrada 110 puede estar configurado para alimentar cada
uno de los tres o más canales de mezcla descendente a al menos una de las al menos dos unidades de procesamiento de canal 121, 122, de tal manera que cada uno de los tres o más canales de mezcla descendente es
35 recibido por una o más de las al menos dos unidades de procesamiento de canal 121, 122. Sin embargo, en otras realizaciones, el enrutador de canal de entrada 110 está configurado para no alimentar al menos uno de los tres o más canales de mezcla descendente a cualquiera de las al menos dos unidades de procesamiento de canal 121,
122, de tal manera que el al menos uno de los tres o más canales de mezcla descendente no es recibido por cualquiera de las al menos dos unidades de procesamiento de canal.
40
[0063] Según una realización, cada una de las al menos dos unidades de procesamiento de canal 121, 122 puede estar configurada para generar el uno o más de los al menos dos canales procesados independientemente de al menos uno de los tres o más canales de mezcla descendente. En otras palabras, ninguna unidad de procesamiento de canal recibe todos los canales de mezcla descendente SMX1, DMX2, DMX3, como se ilustra por
45 la figura 1.
[0064] Según realizaciones, la funcionalidad de procesamiento de mezcla descendente de multicanal puede ser realizada por la aplicación (en cascada y/o en paralelo) de múltiples instancias de decodificador/transcodificador de SAOC (o sus partes).
50
[0065] La figura 3 es una ilustración esquemática que muestra el principio de combinación de múltiples instancias de decodificador/transcodificador mono y estéreo de SAOC en paralelo para descodificar paramétricamente una mezcla de señal de multicanal según una realización.
55 [0066] En particular, en la figura 3, las múltiples instancias de decodificador/transcodificador mono y estéreo
de SAOC son impulsadas en paralelo para procesar la mezcla descendente de multicanal. Según la invención, las unidades de procesamiento de canal 121, 122, 123, 124, 125, 126 de la figura 3 están configuradas para generar los al menos dos canales procesados en paralelo. Por ejemplo, las unidades de procesamiento de canal 121, 122, 123, 124, 125, 126 pueden estar configuradas para generar los al menos dos canales procesados en paralelo, de tal
manera que cada una de las al menos dos unidades de procesamiento de canal, de tal manera que cada una de las al menos dos unidades de procesamiento de canal empieza a generar uno de los al menos dos canales procesados, antes de que cualquier otra unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal termine de generar otro de los al menos dos canales procesados.
5
[0067] El enrutador de canal de entrada 110 de la figura 3 enruta los canales de entrada a los varios decodificadores/transcodificadores. Se debe señalar que los decodificadores/transcodificadores pueden ser impulsados con cualquier número arbitrario de canales de entrada y no restringidos a señales mono o estéreo solamente, como se ilustra en la figura 3 por claridad visual.
10
[0068] Según la realización de la figura 3, el decodificador comprende además un enrutador de canal de salida 130 para combinar los al menos dos canales procesados para obtener el uno o más canales de salida de audio. Las señales (procesadas) procesadas a partir de las unidades de decodificador/transcodificador son alimentadas al enrutador de canal de salida 130. El enrutador de canal de salida 130 combina los varios flujos de
15 entrada y produce una estimación final de las señales de objeto de audio al renderizador 140.
[0069] En la realización ilustrada por la figura 3, el decodificador comprende además un renderizador 140. El renderizador 140 está configurado para recibir información de renderización, en la que el renderizador está configurado para generar el uno o más canales de audio dependiendo de los al menos dos canales procesados y
20 dependiendo de la información de renderización.
[0070] Se debe señalar que el procesamiento paramétrico solamente necesita ser aplicado a los canales de mezcla descendente de interés. La complejidad computacional puede ser reducida de este modo. Las señales de mezcla descendente pueden ser omitidas completamente del procesamiento si no son necesarias (por ejemplo, los
25 canales envolventes (“surround”) pueden ser omitidos si solamente se manipula la escena frontal). En aquellas realizaciones, no todos los tres o más canales de mezcla descendente recibidos por el enrutador de canal de entrada 110 son alimentados a la unidad de procesamiento de canal, sino solamente un subconjunto de estos canales de mezcla descendente recibidos. En cualquier caso, sin embargo, al menos dos canales de mezcla descendente de los tres o más canales de mezcla descendente recibidos son proporcionados a las unidades de 30 procesamiento de canal.
[0071] La figura 4 muestra un diagrama esquemático que ilustra el principio de una estructura de decodificador/transcodificador mono y estéreo de SAOC en cascada para procesar una mezcla de señales de multi- canal según una realización.
35
[0072] Según tal realización ilustrada por la figura 4, una primera unidad de procesamiento de canal 121 de las al menos dos unidades de procesamiento de canal pueden estar configuradas para alimentar un primer canal procesado PCH11 de los al menos dos canales procesados a una segunda unidad de procesamiento de canal 126 de las al menos dos unidades de procesamiento de canal. Dicha segunda unidad de procesamiento 126 puede estar
40 configurada para generar un segundo canal procesado PCH22 de los al menos dos canales procesados, dependiendo del primer canal procesado PCH11.
[0073] La combinación de varios decodificadores/transcodificadores puede ser estática y dada a priori pero también ser adaptada dinámicamente.
45
[0074] Esta estrategia representa un procedimiento de extensión plenamente compatible hacia atrás con SAOC de gestión de sistemas de mezcla descendente de multicanal.
[0075] Las realizaciones de la invención presentadas pueden ser aplicadas en un número arbitrario de 50 canales de mezcla descendente/mezcla ascendente. Pueden ser combinados con cualquier formato de audio actual
y también futuro.
[0076] La flexibilidad del procedimiento de la invención permite la omisión de los canales sin alterar para reducir la complejidad de cálculo, reducir la carga de flujo de bits/cantidad de datos reducida.
55
[0077] Algunos ejemplos se refieren a un codificador de audio, procedimiento o programa informático para codificación. Además, algunas realizaciones se refieren a un decodificador de audio, procedimiento o programa informático para decodificación como se describe anteriormente. Además, algunas realizaciones se refieren a una señal codificada.
[0078] Aunque algunos aspectos han sido descritos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, en el que un bloque o dispositivo corresponde a una etapa de procedimiento o un aspecto de una etapa de procedimiento. Análogamente, aspectos
5 descritos en el contexto de una etapa de procedimiento representan también una descripción de un bloque o elemento o aspecto correspondiente de un aparato correspondiente.
[0079] La señal descompuesta de la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de
10 transmisión alámbrico tal como Internet.
[0080] Dependiendo de ciertos requisitos de implementación, realizaciones de la invención pueden ser implementadas en elementos físicos o en elementos de programación. La implementación puede ser efectuada mediante el uso de un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM,
15 una PROM, una EPROM o una EEPROM o una memoria instantánea (FLASH), que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo que cooperan (o son capaces de cooperar) con un sistema informático programable de tal manera que el procedimiento respectivo es efectuado.
[0081] Algunas realizaciones según la invención comprenden un soporte de datos no transitorio que tienen 20 señales de control que se pueden leer electrónicamente, que son capaces de cooperar con un sistema informático
programable, de tal manera que uno de los procedimientos descritos en esta invención es efectuado.
[0082] En general, las realizaciones de la presente invención pueden ser implementadas como un producto de programa informático con códigos de programa, siendo los códigos de programa operativos para efectuar uno de
25 los procedimientos, cuando el producto de programa informático se ejecuta en un Ordenador. Los códigos de programa pueden ser almacenados por ejemplo en un soporte legible por máquina.
[0083] Otras realizaciones comprenden el programa informático para efectuar uno de los procedimientos descritos en esta invención, almacenado en un medio legible por máquina.
30
[0084] En otras palabras, una realización del procedimiento de la invención es, por consiguiente, un programa informático que tiene códigos de programa para efectuar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
35 [0085] Una realización adicional de los procedimientos de la invención es por consiguiente un soporte de
datos (o medio de almacenamiento digital o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para efectuar uno de los procedimientos descritos en esta invención.
[0086] Una realización adicional del procedimiento de la invención es, por consiguiente, un flujo de datos o 40 una secuencia de señales que representan el programa informático para efectuar uno de los procedimientos
descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados por ejemplo para ser transferidos vía una conexión de comunicación de datos, por ejemplo vía Internet.
[0087] Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador o un 45 dispositivo lógico programable configurado para o adaptado para efectuar uno de los procedimientos descritos en
esta invención.
[0088] Una realización adicional comprende un ordenador que tiene instalado en él mismo el programa informático para efectuar uno de los procedimientos descritos en esta invención.
50
[0089] En algunas realizaciones, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de compuertas programable en el campo) para efectuar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de compuertas programable en el campo puede cooperar con un microprocesador con el fin de efectuar uno de los procedimientos descritos en esta invención. En
55 general, los procedimientos son efectuados preferiblemente por cualquier aparato de elementos físicos.
[0090] Las realizaciones descritas anteriormente son solamente ilustrativas para los principios de la presente invención. Se entiende que modificaciones y variaciones de los arreglos y los detalles descritos en esta invención serán evidentes para otros expertos en la técnica. Se pretende, por consiguiente, estar limitados solamente por el
alcance de las reivindicaciones de patente pendientes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.
Referencias
5
[0091]
[MPS] ISO/IEC 23003-1:2007, MPEG-D (Tecnologías de audio MPEG), Parte 1: MPEG Surround, 2007.
[BCC] C. Faller y F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech 10 and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, Abril 2007.
[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, 15 E. Schuijers y W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[1551] M. Parvaix y L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using 20 Source Index Embedding”, IEEE ICASSP, 2010.
[1552] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[1553] A. Liutkus, J. Pinel, R. Badeau, L. Girin y G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
25 [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[1555] Shuhua Zhang y Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
[1556] L. Girin y J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd 30 International Conference: Semantic Audio, 2011.
Claims (9)
- REIVINDICACIONES1. Un decodificador para generar una señal de salida de audio que comprende uno o más canales desalida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente, 5 en el que la señal de mezcla descendente codifica tres o más señales de objeto de audio, en la que el decodificador comprende:un enrutador de canal de entrada (110) para recibir los tres o más canales de mezcla descendente y para recibir información lateral y10 al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) para generar al menos dos canales procesados para obtener el uno o más canales de salida de audio,en el que el enrutador de canal de entrada (110) está configurado para alimentar cada uno de al menos dos de los tres o más canales de mezcla descendente en al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126), de tal manera que cada una de las al menos dos unidades de procesamiento 15 de canal (121, 122, 123, 124, 125, 126) recibe el uno o más de los tres o más canales de mezcla descendente y de tal manera que cada una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) recibe menos del número total de los tres o más canales de mezcla descendente,en el que cada unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal (121,122, 123, 124, 125, 126) está configurada para generar uno o más de los al menos dos canales procesados 20 dependiendo de la información lateral y dependiendo de dicho uno o más de los al menos dos de los tres o máscanales de mezcla descendente recibidos por la unidad de procesamiento de canal del enrutador de canal de entrada (110),en el que el decodificador comprende además un enrutador de canal de salida (130), en el que el enrutador de canal de salida (130) está configurado para combinar los al menos dos canales procesados para obtener una estimación 25 de las señales objeto de audio,en el que el decodificador comprende además un renderizador (140), en el que el renderizador (140) está configurado para recibir información de renderización y está configurado para generar el uno o más canales de salida de audio, dependiendo de la estimación de las señales objeto de audio y dependiendo de la información de renderización,30 en el que el enrutador de canal de entrada (110) está configurado para no alimentar al menos uno de los tres o más canales de mezcla descendente a cualquiera de las al menos dos unidades de procesamiento de canal (121, 122,123, 124, 125, 126), de tal manera que dicho al menos uno de los tres o más canales de mezcla descendente no es recibido por cualquiera de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126).35 2. Un decodificador según la reivindicación 1, en el que cada una de las al menos dos unidades deprocesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para generar dicho uno o más de los al menos dos canales procesados independiente de al menos uno de los tres o más canales de mezcla descendente.
- 3. Un decodificador según una de las reivindicaciones anteriores, en el que cada una de las al menos 40 dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) es ya sea una unidad de procesamientomono o una unidad de procesamiento estéreo,en el que dicha unidad de procesamiento mono está configurada para recibir exactamente uno de los tres o más canales de mezcla descendente y está configurada para generar exactamente uno o exactamente dos de los al 45 menos dos canales procesados, dependiendo de exactamente uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral yen el que dicha unidad de procesamiento estéreo está configurada para recibir exactamente dos de los tres o más canales de mezcla descendente y está configurada para generar exactamente uno o exactamente dos de los al menos dos canales procesados dependiendo de dichos exactamente dos de los tres o más canales de mezcla 50 descendente y dependiendo de la información lateral.
- 4. Un decodificador según una de las reivindicaciones anteriores, en el que al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para recibir exactamente uno de los tres o más canales de mezcla descendente y está configurada para generar exactamente55 dos de los al menos dos canales procesados, dependiendo exactamente de dicho uno de los tres o más canales de mezcla descendente y dependiendo de la información lateral.
- 5. Un decodificador según una de las reivindicaciones anteriores, en el que al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para recibirexactamente dos de los tres o más canales de mezcla descendente y está configurada para generar exactamente uno de los al menos dos canales procesados, dependiendo de exactamente dos de los tres o más canales de mezcla descendente y dependiendo de la información lateral.5 6. Un decodificador según cualquiera de las reivindicaciones anteriores, en el que el enrutador de canalde entrada (110) está configurado para recibir cuatro o más canales de mezcla descendente yen el que al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para recibir al menos tres de los cuatro o más canales de mezcla descendente y está configurada 10 para generar al menos tres de los canales procesados, dependiendo de dichos al menos tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
- 7. Un decodificador según la reivindicación 6, en el que al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para recibir exactamente tres de los cuatro15 o más canales de mezcla descendente y está configurada para generar exactamente tres de los canales procesados, dependiendo de dichos exactamente tres de los cuatro o más canales de mezcla descendente y dependiendo de la información lateral.
- 8. Un decodificador según la reivindicación 6 ó 7,20en el que el enrutador de canal de entrada (110) está configurado para recibir seis o más canales de mezcla descendente yen el que al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) está configurada para recibir exactamente cinco de los seis o más canales de mezcla descendente y está 25 configurada para generar exactamente cinco de los canales procesados, dependiendo de dichos exactamente cinco de los seis o más canales de mezcla descendente y dependiendo de la información lateral.
- 9. Un decodificador según una de las reivindicaciones anteriores, en el que una primera unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126)30 está configurada para alimentar un primer canal procesado de los al menos dos canales procesados a una segunda unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126), yen el que dicha segunda unidad de procesamiento está configurada para generar un segundo canal procesado de los al menos dos canales procesados, dependiendo del primer canal procesado.35
- 10. Un procedimiento para generar una señal de salida de audio que comprende uno o más canales de salida de audio de una señal de mezcla descendente que comprende tres o más canales de mezcla descendente, en el que la señal de mezcla descendente codifica tres o más señales de objeto de audio, en el que el procedimiento comprende:40la recepción de los tres o más canales de mezcla descendente y la recepción de información lateral por un enrutador de canal de entrada (110),la alimentación de cada uno de al menos dos de los tres o más canales de mezcla descendente a al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) por el enrutador de canal de 45 entrada, yla generación de al menos dos canales procesados por al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) para obtener el uno o más canales de salida de audio,en el que la alimentación de cada uno de al menos dos de los tres o más canales de mezcla descendente a al menos una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 50 126) por el enrutador de canal de entrada (110) se lleva a cabo de tal manera que cada una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) recibe uno o más de los tres o más canales de mezcla descendente y de tal manera que cada una de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) recibe menos que el número total de los tres o más canales de mezcla descendente, en el que la generación de los al menos dos canales procesados se lleva a cabo al generar uno o más de los al 55 menos dos canales procesados por cada unidad de procesamiento de canal de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126) dependiendo de la información lateral y dependiendo de dicho uno o más de los al menos dos de los tres o más canales de mezcla descendente recibidos por dicha unidad de procesamiento de canal del enrutador de canal de entrada (110),en el que la generación de al menos dos canales procesador por las al menos dos unidades de procesamiento decanal se lleva a cabo en paralelo,en el que el procedimiento comprende además la combinación de los al menos dos canales procesador por un enrutador de canal de salida para obtener una estimación de las señales de objeto de audio, y en el que el procedimiento comprende además la recepción de información de renderización por un renderizador y 5 en el que el procedimiento comprende además la generación de los uno o más canales de salida de audio por el renderizador dependiendo de la estimación de las señales de objeto de audio y dependiendo de la información de renderización,en el que al menos uno de los tres o más canales de mezcla descendente no es alimentado por el enrutador de canal de entrada (110) en cualquiera de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 10 125, 126), de tal manera que dicho al menos uno de los tres o más canales de mezcla descendente no sea recibido por ninguna de las al menos dos unidades de procesamiento de canal (121, 122, 123, 124, 125, 126).
- 11. Un programa informático configurado para implementar el procedimiento de la reivindicación 10cuando es ejecutado en un ordenador o procesador de señales.15
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261679412P | 2012-08-03 | 2012-08-03 | |
US201261679412P | 2012-08-03 | ||
PCT/EP2013/066374 WO2014020181A1 (en) | 2012-08-03 | 2013-08-05 | Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2654792T3 true ES2654792T3 (es) | 2018-02-15 |
Family
ID=48916076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES13745103.5T Active ES2654792T3 (es) | 2012-08-03 | 2013-08-05 | Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal |
Country Status (12)
Country | Link |
---|---|
US (1) | US10176812B2 (es) |
EP (1) | EP2880653B1 (es) |
JP (1) | JP6141978B2 (es) |
KR (1) | KR101660004B1 (es) |
CN (1) | CN104756186B (es) |
AU (1) | AU2013298462B2 (es) |
BR (1) | BR112015002367B1 (es) |
CA (1) | CA2880891C (es) |
ES (1) | ES2654792T3 (es) |
MX (1) | MX351687B (es) |
RU (1) | RU2604337C2 (es) |
WO (1) | WO2014020181A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112015002367B1 (pt) * | 2012-08-03 | 2021-12-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev | Decodificador e método para codificação de objeto de áudio espacial multi-instância empregando um conceito paramétrico para caixas multicanal de downmix/upmix |
KR102343453B1 (ko) * | 2014-03-28 | 2021-12-27 | 삼성전자주식회사 | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
CN111556426B (zh) | 2015-02-06 | 2022-03-25 | 杜比实验室特许公司 | 用于自适应音频的混合型基于优先度的渲染系统和方法 |
US9854375B2 (en) * | 2015-12-01 | 2017-12-26 | Qualcomm Incorporated | Selection of coded next generation audio data for transport |
EP4123644B1 (en) | 2018-04-11 | 2024-08-21 | Dolby International AB | 6dof audio decoding and/or rendering |
CN110808054B (zh) * | 2019-11-04 | 2022-05-06 | 思必驰科技股份有限公司 | 多路音频的压缩与解压缩方法及系统 |
GB202002900D0 (en) * | 2020-02-28 | 2020-04-15 | Nokia Technologies Oy | Audio repersentation and associated rendering |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK1173925T3 (da) * | 1999-04-07 | 2004-03-29 | Dolby Lab Licensing Corp | Matriksforbedringer til tabsfri kodning og dekodning |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
CN101371298A (zh) * | 2006-01-19 | 2009-02-18 | Lg电子株式会社 | 用于解码信号的方法和装置 |
WO2008039043A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
SG175632A1 (en) * | 2006-10-16 | 2011-11-28 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
RU2417549C2 (ru) * | 2006-12-07 | 2011-04-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для обработки аудиосигнала |
KR101111520B1 (ko) * | 2006-12-07 | 2012-05-24 | 엘지전자 주식회사 | 오디오 처리 방법 및 장치 |
CN101542597B (zh) * | 2007-02-14 | 2013-02-27 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
JP5133401B2 (ja) * | 2007-04-26 | 2013-01-30 | ドルビー・インターナショナル・アクチボラゲット | 出力信号の合成装置及び合成方法 |
WO2009066959A1 (en) * | 2007-11-21 | 2009-05-28 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
CN101960865A (zh) * | 2008-03-03 | 2011-01-26 | 诺基亚公司 | 用于捕获和呈现多个音频声道的装置 |
US8060042B2 (en) * | 2008-05-23 | 2011-11-15 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
WO2010090019A1 (ja) * | 2009-02-04 | 2010-08-12 | パナソニック株式会社 | 結合装置、遠隔通信システム及び結合方法 |
US8112168B2 (en) | 2009-07-29 | 2012-02-07 | Texas Instruments Incorporated | Process and method for a decoupled multi-parameter run-to-run controller |
KR101615262B1 (ko) * | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
KR101613975B1 (ko) * | 2009-08-18 | 2016-05-02 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치 |
WO2012040897A1 (en) * | 2010-09-28 | 2012-04-05 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
KR101227932B1 (ko) * | 2011-01-14 | 2013-01-30 | 전자부품연구원 | 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법 |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
JP2015509212A (ja) * | 2012-01-19 | 2015-03-26 | コーニンクレッカ フィリップス エヌ ヴェ | 空間オーディオ・レンダリング及び符号化 |
CN104541524B (zh) * | 2012-07-31 | 2017-03-08 | 英迪股份有限公司 | 一种用于处理音频信号的方法和设备 |
BR112015002367B1 (pt) * | 2012-08-03 | 2021-12-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev | Decodificador e método para codificação de objeto de áudio espacial multi-instância empregando um conceito paramétrico para caixas multicanal de downmix/upmix |
AR090703A1 (es) * | 2012-08-10 | 2014-12-03 | Fraunhofer Ges Forschung | Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos |
EP2830046A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal to obtain modified output signals |
-
2013
- 2013-08-05 BR BR112015002367-3A patent/BR112015002367B1/pt active IP Right Grant
- 2013-08-05 WO PCT/EP2013/066374 patent/WO2014020181A1/en active Application Filing
- 2013-08-05 CN CN201380051500.1A patent/CN104756186B/zh active Active
- 2013-08-05 JP JP2015524811A patent/JP6141978B2/ja active Active
- 2013-08-05 MX MX2015001514A patent/MX351687B/es active IP Right Grant
- 2013-08-05 CA CA2880891A patent/CA2880891C/en active Active
- 2013-08-05 EP EP13745103.5A patent/EP2880653B1/en active Active
- 2013-08-05 KR KR1020157005399A patent/KR101660004B1/ko active IP Right Grant
- 2013-08-05 RU RU2015107245/08A patent/RU2604337C2/ru active
- 2013-08-05 AU AU2013298462A patent/AU2013298462B2/en active Active
- 2013-08-05 ES ES13745103.5T patent/ES2654792T3/es active Active
-
2015
- 2015-01-30 US US14/610,396 patent/US10176812B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6141978B2 (ja) | 2017-06-07 |
CA2880891C (en) | 2017-10-17 |
WO2014020181A1 (en) | 2014-02-06 |
EP2880653A1 (en) | 2015-06-10 |
KR20150040997A (ko) | 2015-04-15 |
JP2015527611A (ja) | 2015-09-17 |
BR112015002367A2 (pt) | 2018-09-11 |
AU2013298462A1 (en) | 2015-02-19 |
BR112015002367B1 (pt) | 2021-12-14 |
CA2880891A1 (en) | 2014-02-06 |
MX2015001514A (es) | 2015-07-06 |
RU2015107245A (ru) | 2016-09-27 |
CN104756186A (zh) | 2015-07-01 |
RU2604337C2 (ru) | 2016-12-10 |
EP2880653B1 (en) | 2017-11-01 |
US20150149187A1 (en) | 2015-05-28 |
AU2013298462B2 (en) | 2016-10-20 |
CN104756186B (zh) | 2018-01-02 |
MX351687B (es) | 2017-10-25 |
KR101660004B1 (ko) | 2016-09-27 |
US10176812B2 (en) | 2019-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2654792T3 (es) | Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal | |
ES2644520T3 (es) | Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia | |
ES2649739T3 (es) | Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal | |
JP6687683B2 (ja) | マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム | |
ES2649194T3 (es) | Decodificador de audio, codificador de audio, procedimiento para proporcionar al menos cuatro señales de canales de audio sobre la base de una representación codificada, procedimiento para proporcionar una representación codificada sobre la base de al menos cuatro señales de canales de audio y programa informático que utiliza una extensión de ancho de banda | |
ES2734378T3 (es) | Mezcla ascendente espacial controlada por renderizador | |
WO2008100098A1 (en) | Methods and apparatuses for encoding and decoding object-based audio signals | |
ES2709117T3 (es) | Codificador y decodificador de audio | |
US10497375B2 (en) | Apparatus and methods for adapting audio information in spatial audio object coding | |
ES2856423T3 (es) | Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia |